猎云网10月22日报道 (编译:Colin)
即使对世界上最大的科技公司来说,语音识别也是个难题。苹果和谷歌收集了大量真实的语音模式的录音,来调整语音识别算法才有了Siri和Google Now。而且尽管这些工具已经很棒了,但它们还是要花很长的时间来识别你的语音指令。
建立语音驱动的应用对小一点的公司来说就更难了,因为它们没法像苹果和谷歌那样获得那么多资源,也就是说你不能和那些大公司一样收集大量的真实语音指令。“如果只有一家公司在研发,你都找不到好的榜样。”Alexandre Lebrun说。
这就是他建立Wit.ai的原因,这项服务能够帮助开发者把各自收集到的语音样本整合到一起,建立一个能与苹果和谷歌媲美的语音和自然语言识别系统。在接下来几年内随着下一波需要语音界面的科技的开发,比如没有屏幕的联网装置和可穿戴设备,这项服务可能起到很大的作用。
Wit.ai才刚刚起步,但它已经吸引了上千名开发者参与测试服务,上周三时它宣布获得了风投公司Anderessen Horowitz的300万美元的种子投资。
语音识别:屋子里的大象
Wit.ai的建立来自Lebrun对上一家公司VirtuOz的失望。VirtuOz为像AT&T这样的公司开发语音识别系统,问题是每次要建一个新的系统,公司团队都必须从零开始。
对于每一个系统,他们都必须搜集一套新的声音样本来调整。在很多情况下,不同的顾客要求识别的指令之间有一些重叠的部分,但是公司却不能把一个顾客的声音样本在另一个顾客的系统里重复利用。
“不管我们怎样努力地尝试,问题还是显而易见——语音识别不可能做到完美。”他在一篇博客里写道,“实际上,终端用户体验有时候是灾难性的。更糟糕的是,由于把声音整合进系统要花很大代价,不会有供应商针对小型公司和开发者的需求。”
去年,Lebrun把VirtuOz卖给了帮助运行Siri的语音识别公司Nuance,然后创立了Wit.ai。
Wit.ai如何工作
一般来说,语音识别的开发者要先创建一个“模型”,就是你希望电脑能识别的单词和短语的集合,然后就要尽可能多地输入不同的人说这些单词短语的样本来“训练”电脑识别它们。由于不同的用户下指令的方式不一样,这个模型需要尽量健全,能识别同一个指令的不同表达方式。
实质上Wit.ai是想让各个公司分享模型和调整数据,就像软件开发者在GitHub上分享编码一样。
它的商业模式也和GitHub类似,GitHub对任何公开分享编码的人都是免费的,Wit.ai对分享数据的人也是免费的。由于隐私问题和可操作性,用来调整系统的真实录音不会被分享。而那些不想公开自己的模型和数据的公司可以付费使用这项服务。
免费提供服务的主张
Wit.ai联合了越来越多的公司和项目,其中还有一些开源项目比如Julius和CMU Sphinx以及托管服务比如谷歌的语音文本转换,致力于帮助开发者在他们的应用中加入语音识别,这样就可以更好地识别语音,弄清用户的要求到底是什么。
Lebrun希望通过提供免费服务吸引大量的模型和调整数据,以提供能够媲美苹果和谷歌的语音识别服务。
一个问题是所有的音频都要通过互联网传到公司的服务器上,这意味着可能产生延迟、可利用性和隐私的问题。但Lebrun说他们正在开发一个主要在客户端运行然后再与服务器交换信息的混合版本。
Source:Wired