• 0
搜狗创新发布微信首款个性化TTS小程序——“故事大王”
统计 阅读时间大约4分钟(1326字)

2019-06-19 搜狗创新发布微信首款个性化TTS小程序——“故事大王”

根据提示,录制5分钟的简短音频后,“搜狗故事大王”小程序就会自动生成用户的个性化合成音色,小朋友就可以听到用父母声音讲述的童话故事。

【猎云网(微信:ilieyun)北京】6月19日报道

近日,搜狗上线了一款名为“故事大王”的小程序,它基于搜狗知音引擎的语音合成能力,首次将个性化TTS技术落地到微信当中。用户根据提示,录制5分钟左右的简短音频后,“搜狗故事大王”小程序就会自动生成用户的个性化合成音色,小朋友就可以听到用父母声音讲述的童话故事。

这样一款实用的带娃利器是不是很神奇?那它到底是如何快速准确地定制用户个性化音色的?又是怎么用合成音色声情并茂地为小朋友讲故事的呢?

颠覆传统“机器音”,搜狗独家提供个性化TTS技术

在专业领域,技术员们把“文本文件向语音的实时转换”称为TTS功能。还记得“哪里不会点哪里”的点读机么?这个曾经风靡一时的儿童英语学习神器就应用了这款功能,点读笔扫描文本内容,再通过点读机转换成人声朗读出来。在其他诸如电子书阅读、语音导航、语音提示等领域,TTS功能的应用也十分广泛,但他们拥有一个共同的缺点,即只能实现文本向特定声音模板的转变,且声音质量较为呆板,机器感十足。

使用过“搜狗故事大王”的用户都知道,在该小程序上用户可以定制自己专属的个性化合成音色。然后就能随时随地的通过手机为小朋友讲故事了,听起来声情并茂、自然流畅,明显区别于以往的机器音。

这都得益于搜狗知音引擎独创的个性化TTS合成技术,与传统技术相比,“搜狗故事大王”具有高表现力,更趋于真人口音。此外,除了可以定制个性化声音,还能使用该声音实现任意文本的合成,搜狗是目前成功将两项技术进行完美结合并成功落地的公司。

依托个性化TTS技术,“搜狗故事大王”对用户录制声音的要求很低,不需要去专业录音室、不需要长时间录制。用户只需5分钟左右的操作,搜狗的后台技术模型就能自动精准排除噪点,完美复制原始声音的各项数据,合成专属定制的个性化音色。该合成音色的朗读效果与真人相似度极高,可以做到“以假乱真”的地步。

坚持创新,克服难关,个性化定制终实现

搜狗独家推出的个性化TTS技术,在技术研发层面具有很多的挑战。

首先,声音来源的清晰度直接影响后续音色的定制。但不可避免的是,日常生活中通过普通录音设备,很难收集到噪音小、音质清的声源。个性化TTS技术集成了搜狗知音引擎已有的信噪比检测、口语评测、识别、降噪、去混响、高稳定性声学参数提取与模型自适应、深度学习平台等多项前沿技术,并在此基础上进行了突破。最终,“搜狗故事大王”终于交出一份满意的答卷,让用户无需去专业录音室录音,在卧室、会议室和甚至车内等常见的环境下就可以进行声音采集。

 图片20_副本.png

(搜狗个性化TTS技术)

其次,如何为机器声音赋有情感神经也是一大技术难点。人类拥有丰富的语言情感表达能力,是因为人的大脑皮层中有140亿个神经元,模拟这样一个人工智能大脑是不可能的。但是搜狗研发团队找到了另一个开发途径,一款基于人工智能的新技术——多目标学习技术。该技术可以同时学习三个目标对象,分别是表征音色的“说话人编码器”、表征内容的“文本编码器”和表征表现力的“风格编码器”,再经过模拟融合进行表现力迁移,为呆板的合成声音注入情感,使其听起来更真实。

最后,搜狗还采用了国际领先的波形合成模型WaveRNN,让最终输出的音质拥有更好效果。

至此,“搜狗故事大王”这款小程序可以完美实现用户声音的个性定制,并通过这个AI合成声音声情并茂地为小朋友讲故事了。“故事大王”作为搜狗知音引擎在人工智能领域开发出的又一创新应用,除了为当代人的日常生活提供了更大便捷性,也为智能科技研究领域提供了新选题,比如为未来人工智能机器人的开发提供语言系统搭建的参考,让机器人言谈更富情感,影视剧中的人机共享智能未来将成为现实。

1、猎云网原创文章未经授权转载必究,如需转载请联系官方微信号进行授权。
2、转载时须在文章头部明确注明出处、保留官方微信、作者和原文超链接。如转自猎云网(微信号:lieyunjingxuan
)字样。
3、猎云网报道中所涉及的融资金额均由创业公司提供,仅供参考,猎云网不对真实性背书。
4、联系猎云,请加微信号:jinjilei
相关阅读
推荐阅读
{{item.author_display_name}}
{{item.author_display_name}}
{{item.author_user_occu}}
{{item.author_user_sign}}
×