【猎云网(微信:ilieyun)北京】5月14日报道
国际声学、语音与信号处理会议(ICASSP)近期公布的比赛结果显示,来自猿辅导人工智能实验室的研究团队在“M2VoC(多说话人多风格音色克隆大赛)”中获得子赛道第一名。这表明该研究团队在智能语音的部分关键核心技术和应用上取得重要进展。
作为2021年声学、语音和信号处理国际会议(ICASSP)信号处理挑战旗舰任务之一,多说话人多风格音色克隆大赛吸引了来自全球百余家知名高校和企业研究团队的参与,目标是为音色克隆、语音识别等前沿技术提供创新探索的平台。
ICASSP是全世界最大的、最全面的信号处理及应用方面的会议,也是IEEE(电子技术与信息科学工程师协会)的重要会议。这次比赛共有来自各大知名公司和大学研究机构的150多支队伍报名参加。最终,在极少样本开集赛道,猿辅导AI Lab语音实验室的5人研发团队夺得冠军。
据了解,此次在极少样本开集赛道获得第一名的研究团队来自猿辅导人工智能实验室。研究团队成员杨明祺介绍,智能语音是人工智能技术的重要组成部分, 在经济社会中有着非常多应用场景,此次在语音合成技术方面取得实质进展,未来能够被进一步应用到教育、医疗等行业和领域中,推动我国人工智能技术的发展。
该技术听起来生涩难懂,实际上小猿口算、猿辅导网课等产品中早已广泛应用。例如,它可以在低年龄学员还未形成一定阅读能力的情况下,将题目从难以理解书面文字转换成学员得以接受的语音,帮助学员理解题目及文章内容。一些英语听力练习题对咬字发音的要求十分严苛,AI语音也可以自动生成标准的英音、美音听力音频。语音实验室研发团队的日常工作之一,就是要去找到把题目文本转化成读题音频的方法,甚至有时候需要根据老师具体的出题需求,控制合成句子的发音、语调和语速。
因为有工作过程中的长期积淀,猿辅导研发团队仅花了5天时间就准备好了参赛作品。他们认为,猿辅导的语音合成作品胜在韵律信息足够自然流畅,而这也跟智能语音技术在教育领域的实际应用场景和需求高度相关。