【猎云网(微信:ilieyun)北京】2月11日报道
编辑获悉,支付宝集五福增设的打年兽环节,吸引了超过1亿用户参与。这一可用声音喊关键词、抢额外红包的创意游戏,成为今年集五福活动的一大亮点。看似简单的游戏背后,暗藏业界最前沿的语音黑科技,可支持上亿用户同时声控玩游戏,且语音识别反应速度达到传统语音技术的20倍。
声控打年兽游戏被不少人评价脑洞大开又魔性解压。众多网友在解锁红包的同时,通过对着手机高喊“牛牛牛”“幸福安康”等祝福词收获了意想不到的欢乐,话题“打年兽声控局”在微博上获2.1亿关注。不过,由于需承载亿级用户,保证不同机型配置、不同网络条件的用户都拥有丝般顺滑的体验,这一国民游戏对语音识别技术提出了极高要求。
传统语音识别系统往往部署在云端,对移动端网络状况要求很高,难以低延时支持所有用户。为保障稳定的用户体验,声控打年兽游戏采用了达摩院语音实验室最前沿的离线关键词识别技术,语音识别系统从云端搬至移动端,同时被剪裁至不到5M的极致大小,可在离线部署的情况下允许上亿用户同时低延时畅玩游戏。即便在低配手机上,这一黑科技也能在50毫秒内完成语音识别过程,速度达到传统语音技术的20倍。
近几年来,阿里语音在前沿技术及应用领域接连取得突破。2019年,阿里语音AI凭借逼近真人表现力的交互能力,入选《麻省理工评论》“全球十大突破性技术”;2020年,阿里语音AI首次让端上语音识别和语音合成能力达到了媲美云端的水平;2020年底,IDC最新报告显示,阿里语音在以32%的市场份额,在云上语音AI市场中连续位居第一。