【猎云网(微信:ilieyun)北京】5月15日报道(文/吕梦)
电影《Her》中,主人公西奥多刚结束一场失败的婚姻,一次偶然的机会,他接触到了搭载了人工智能系统的虚拟化身“萨曼莎”。萨曼莎拥有迷人的、磁性的声线,时而风趣幽默、时而温柔体贴,与我们实际生活中听到的许多机器人顿字、顿句的发音相去甚远。虽然这个虚构出来的角色是由演员配音完成的,但却透露出一个真实的讯息——越接近真人说话水准和富有情感表现力的声音,越容易为大众所接受。
利用声音的“粘性”为产品打造专属形象
让机器摆脱平铺直叙的发声,带来更加舒适自然的听觉体验,这也是当前语音合成技术的发展方向。
然而,语音合成效果的真实性离不开准确、丰富、优质的语音训练数据。对此,成立于2016年的数据服务提供商标贝科技,在不到两年的时间里已经积累了包括文本、语音等多种类型的语料数据,并为多家互联网巨头的AI产品提供了大量的数据服务。
凭借团队十年以上的语音合成经验,标贝科技也于今年年初推出了TTS评测系统,并在近期开始为客户提供整套定制化语音合成技术方案。
“我认为个性化的语音是一个非常有价值的方向”,标贝科技联合创始人CTO李秀林在接受猎云网(微信:ilieyun)采访时表示,结合自身在语音合成技术领域十余年的经验和行业观察,他认为,“每个声音都是有特点的,不同的品牌、公司和服务商会根据不同的情景和产品特点采用不同的声音,而这个声音是有粘性的”。
为了打造优质的语音,让用户喜欢从而形成对声音的“粘性”,标贝科技前期需要设计丰富的语料、接触大量的声优,指导他们完成声音的采集,之后再对语音进行深度加工。
传统语料数据处理方式为手工精标,需要耗费大量人力,标贝科技则利用深度学习技术,通过计算机程序进行预处理,之后再由人工进行校正,大大提高了工作效率,并保障了数据处理的准确性。
通过标贝科技积累和训练的音库,客户能够从中选择与自己产品属性、形象相匹配的声音,为产品赋能。今年4月召开的上交会上,齐悟就与标贝科技联合展出了“齐天大圣孙悟空”这一经典的神话形象。借助全息投影技术,“孙悟空”在齐悟的智能交互技术和标贝的语音合成技术的“赋能”下,栩栩如生地展现在大众面前。
“在整个产业链中,我们更像一个幕后工作者,为客户提供‘声音’的整体解决方案,让客户可以专心于自身产品的研发,快速地进行产品迭代”,李秀林表示,“随着这次转型,标贝已经形成了从底层数据、到核心技术再到服务和应用的三层业务结构,大大提升了满足合作伙伴多方位需求的能力。合作伙伴还可以借此摆脱产品中迫切需要高水平的语音技术,但又受制于技术门槛高、投入大的压力而左右为难的窘境”。
提供个性化音库数据及解决方案
2013年,李秀林离开当时担任高级研发经理的松下研发中心,加入百度。在百度任职期间,他带领团队开展了一个关于情感合成的项目,专攻百度小说频道,仅用半年左右的时间,就在语音合成加工效率、合成效果上取得了重大突破,项目获得了百度的百万美元大奖。
2016年,李秀林加入滴滴,任职滴滴研究院语音团队负责人兼首席算法工程师,帮助滴滴开拓其出行领域相关的语音业务。这期间的经历也让他发现,“给用户提供服务,并且改善用户的体验是一个让人非常有成就感的事情,非常兴奋”。之后,李秀林一直在寻找那样的机会——“不断进行技术创新,以创新给更多的人带来更好的体验”。
此时,标贝科技抛来的“橄榄枝”让他看到了在创业公司做语音合成技术的优势和机遇,“比如在大公司,做一个语音合成我们需要相关的数据,这时候我们通常会去找数据公司合作,需要3~6个月的时候去等待数据,这中间耗费的周期往往会很长”,李秀林表示,“在标贝,我们有很多的自有数据可以用来做各种实验,新的想法还可以直接让数据团队采集加工来配合,推进的效率非常高”。
目前,在定制型音库方面,标贝科技已成功为用户提供了150小时的中文女声情感音库、350小时的中文女声音库、100小时的男生音库、80小时粤语语音库、50小时美语女声语音库、40小时的ToBI语音库、40小时模仿儿童语音库、30小时儿童语音库、20小时葡萄牙语音库、20小时台湾普通话语音库、10小时日语、10小时韩语以及20小时明星语音库等,音库还在不断丰富和积累中。同时标贝科技还提供自有音库,中文男女声,美语男女声,儿童,粤语,台普、日语、韩语等及个性话音库,广大客户现已能直接使用整体解决方案。
在业务发展方面,李秀林基于自己的分析,对公司的发展信心十足。他注意到,随着近年来AI人才的稀缺,极度紧张的人才问题成了很多公司不得不面临的尴尬现状。
“语音人才的招聘很难,组建一个好的团队就更难。有的公司,由于产品中需要语音技术,可能会在这个方向上投入几百甚至上千万,但由于缺乏积累,也很难做出有竞争力的技术。甚至有的公司想组建语音团队,但组建到一定程度后发现力不从心就散掉了。如果将这部分交给我们来做,相当于让客户用很低的成本实现了较高的回报,客户可以专注于产品本身,比如产品的功能、特点、个性等等,从而达到我们和客户的双赢”。
让声音自然,富有情感和表现力,一直是语音合成技术的一大难点。这当中主要涉及自然语言处理和声学建模技术。例如,我们在朗读一段文章时,能够自然分辨出哪个是词、哪个是短语,哪里需要停顿、哪里应该加强语气,并且声音是连贯、悦耳的。
“但机器看到的是一个个字符,它要把这些字符理解成我们所理解的停顿,甚至‘情感’,然后将文本的特征变成一个个声学特征,进一步生成能让人听起来很舒服、自然的声音,这个技术难度是非常大的”,李秀林告诉猎云网(微信:ilieyun),“另外,在一般场景下,发音人发音的稳定性,包括对于他发音中一些瑕疵的控制,都是要做的,所以从数据的角度、技术的角度(NLP、声学模型)都会有一些挑战”。
高质量的语音合成技术,有非常多的应用场景。
“比如,可以利用自己的声音,或者家人的声音,给孩子讲故事,会非常有趣;再比如,智能客服机器人,通过自动识别客户语音及语义,通过语音合成的语音为客户解答简单的问题,即便只能处理其中30~50%的通话,对人力成本也是极大的改善”,李秀林谈到,“语音行业一直是AI典型的技术领域,我们工作十几年了,大家都还是自称是‘做语音技术的’。做企业需要扎扎实实地做自己擅长的领域,不去追热点,因为热点也会变,自己做得好的话,也能激发出很多新的热点”。
目前,除了TTS评测系统已经上线,在线合成技术也已经可以在标贝科技官网体验,感兴趣的朋友可以尝试一下。