• 14
阿法狗亲爹DeepMind又推逆天读唇软件,准确率接近人类专家四倍
统计 阅读时间大约2分钟(630字)

2016-11-25 阿法狗亲爹DeepMind又推逆天读唇软件,准确率接近人类专家四倍

一个经验丰富的人类读唇专家,其正确率也仅为12.4%而已。

【猎云网(微信号:ilieyun)】11月25日报道(编译:海倩)

Google的AI部门DeepMind和牛津大学的研究人员们通过使用人工智能技术,共同研发了一款最准确的唇读软件。他们从英国BBC中选用了数千小时的电视画面,科学家训练神经网络为视频镜头注释,其准确度高达46.8%。起初,这一数字可能并不令人印象深刻,尤其是在与AI转录音频的准确率进行比较之后。但是若用同一个画面进行测试,一个经验丰富的人类读唇专家,其正确率也仅为12.4%而已。

在本月早些时候,牛津大学首先成立了一个单独的研发小组。科学家们通过使用相关技术,发明了一个名为LipNet的读唇软件,在一项测试中它实现了93.4%的准确率,而人类读唇专家准确率才到52.3%。但是,这一数据,其实是在特制的视频片段上进行测试并得出的,视频的录制都是请志愿者说一些公式化的表述。相比之下,号称“看、听、读、拼”兼备的DeepMind软件,是在从BBC政治节目中随意选取自然且不加说明的对话中进行测试的,这一举措更具挑战性。

为了对DeepMind的“看、听、读、拼”功能进行训练,研究小组选了5000多个小时的电视节目,包括大量的新闻节目,如Newsnight、Question Time和World Today。这些视频涵盖了11.8万个句子,约1.75万个独立单词。反观LipNet测试数据库的视频中,仅有51个单词。

DeepMind的研究人员还表明,该程序还有其他广泛的应用价值,比如帮助听力障碍人士理解对话。它还也可以为无声电影作注释,也允许用户通过口型来控制如Siri或Alexa一样的虚拟助理。

但是当大多数人知晓AI程序已然学会唇读之后,第一个想法就是如果人们将其应用于监视中,他们又该如何。而研究人员表示,该技术需要在明亮的、高分辨率视频画面中运行,目前的低帧率监控视频还不具备此操作条件。然而我们却不能忽视,人工智能似乎正在缩小着这个差距。

1、猎云网原创文章未经授权转载必究,如需转载请联系官方微信号进行授权。
2、转载时须在文章头部明确注明出处、保留官方微信、作者和原文超链接。如转自猎云网(微信号:lieyunjingxuan
)字样。
3、猎云网报道中所涉及的融资金额均由创业公司提供,仅供参考,猎云网不对真实性背书。
4、联系猎云,请加微信号:jinjilei
相关阅读
推荐阅读
{{item.author_display_name}}
{{item.author_display_name}}
{{item.author_user_occu}}
{{item.author_user_sign}}
×