• 1
【投稿】不是针对谁,现在的深度学习都解决不了对话AI
统计 阅读时间大约6分钟(2222字)

2019-10-10 【投稿】不是针对谁,现在的深度学习都解决不了对话AI

纯数据驱动的端对端方案实际上难以实现突破性的人机对话。

猎云网注:本文系悉之教育算法合伙人、首席算法工程师周天宇向猎云网投稿。人的逻辑如此多样,收集到覆盖所有思考方式的对话数据近乎不可能,因此纯数据驱动的端对端方案实际上难以实现突破性的人机对话。即便是用这类方式给出了对话结果,其较差的可解释性也难以胜任对逻辑严谨性要求较高的场景。

距离第一次唤醒siri已经过去了8年(2011年Siri伴随iPhone4S面世),这几年间市面上涌现了五花八门的语音助手。单就去年而言,就有数十个公司发布了自己的新款语音助手,如华为的新一代语音助手HiAssistant,LG的语音助手CLOi,OPPO的小欧语音助手,联想Z5的”乐语音”等等,除了电子产品,其他行业也在积极跟上「时代步伐」……

根据Strategy Analytics的统计报告显示,2018年全球范围内出售的智能手机中,有47.7%配置了语音助手,且预测这个数据在五年内将会达到90%。看到这些数据我们可能认为,「语音助手」进入了一个爆发时期。

3.jpg

悉之教育算法合伙人、首席算法工程师周天宇

但细想一下,距离上一个让人感到惊叹的人机对话的产品突破,已经过去了8年。经历了深度学习最火爆的8年,大量诸如Seq2Seq这类典型深度学习方法被引入了人机对话,各种语音助手,对话云服务等层出不穷,但对话的水平就像是被智子锁死在了2011年般停滞不前。

其实对比其他受深度学习深耕而突破进展的方面,不难发现一些端倪。

人在对话中蕴含着复杂的逻辑,交流的语言不过是这些逻辑的体现。

例如,常见的语音助手之所以能订票听歌,是因为其中包含了对这些简单任务建立的逻辑建模,这也能解释为什么它们很难处理更加复杂的任务:难以对更复杂的推理建模。如果脱离了逻辑,即便是基于全人类过往的对话数据,给出了或基于检索,或Seq2Seq生成的回答,纵然有统计上的意义,但最后的结果其实更像是一只非常聪明的鹦鹉在学舌。

何况人的逻辑如此多样,收集到覆盖所有思考方式的对话数据近乎不可能,因此纯数据驱动的端对端方案实际上难以实现突破性的人机对话。即便是用这类方式给出了对话结果,其较差的可解释性也难以胜任对逻辑严谨性要求较高的场景。你永远不会希望计算机回答你「一加一等于二」是因为根据数据统计绝大部分人会回答二,而是希望它能基于自身推理后得出这个结论。

521_副本.jpg

(图片来自网络)

仅从数据驱动的角度出发,基于检索的对话系统显然无法超出过往对话中已经出现过的情况,而端对端又难以学习到对话中的逻辑,最终会陷入一个僵局。

想要在这个问题上有所突破,那就要从纯数据驱动中跳脱出来,以非端对端的方式,从对话背后的逻辑入手,让机器能够从更本质的角度去理解人对话的逻辑,去理解人表达出来的字里行间蕴含的信息。

带着自身的意图,结合自身的背景知识与对方提供的信息进行一定的推理,得到自己想要表达的信息,最后把想要传达的信息组织成一句语句通顺的话语作为输出。

这样的对话系统才算得上是知道该说什么,也知道为什么该这么说。不过即便是明确了方向,想在通用领域下实现一种万能的对话系统,以目前的技术来说似乎仍让人望而却步。人的思维灵活而广泛,想要在开放领域下用非端对端的方式去理解对话内容都非易事,更不要说基于这种逻辑去与人对话了。

但倘若我们将范围收束到一个知识完备、逻辑清晰的领域上,并选择一种逻辑性较强的复杂任务作为典型问题来研究,那么有没有可能构建一个能在这个领域内能理解、能推理、能有逻辑地解决问题的对话系统呢?

正是这样的念头促成了悉之的成立。

作为一家希望能够在教学场景下用对话解决教学问题,并将领域逐渐拓展到最终成为行业范式的公司,我们首先从数学这个最依赖逻辑的领域着手,定位「为学生提供数学教学」作为我们的主要研究问题。由此我们实现了能够理解数学推理逻辑,并在这基础上通过领域内推理决定对话目的与内容,最终搭建了在与学生的实时对话中可以为学生答疑解惑的教学对话系统。

为了让机器理解数学领域内人的推理逻辑,我们设计了独有的知识承载方式去建立该领域下的知识库,将数学推理建模为单元组成的推理链路,使机器不仅可以从表达中读出背后的逻辑链条,也能基于单元推理出自身为了教学而需要采取的行动。另一方面,借由任务驱动型对话系统,我们赋予了机器在任务驱动逻辑下与人对话的能力。因此,这个对话系统便可以按照数学推理的逻辑与人进行交谈,在对话中获得信息,进行推理,从而为每个学生提供个性化的虚拟教师教学体验。

522_副本.jpg

(图为悉塔助教app界面)

当然,在端对端深度学习依然在各个领域大行其道的今天,这样的解决方案无疑是小众的。但小众之所以会出现,正是因为一些具有前瞻性的人已经发现了主流方法的局限性,并先一步开始探索可能的解决方案。而往往就是靠着这样另辟蹊径的探索,人们开始走出进退维谷的困境,改变历史发展的方向。

因此,即便是在CV这种深度学习几乎占据统治地位的领域,也已经有人开始发出不同的声音。

CVPR2019程序主席,伊利诺伊大学香槟分校(UIUC)计算机科学副教授DerekHoiem认为:计算机视觉正处于黄金时代,但它依靠的只是记忆,并非真正的智能[1]。CVPR大会主席,加州大学洛杉矶分校(UCLA)统计学系与计算机系教授朱松纯认为:真正的人工智能应当具有认知推理能力,而不仅仅是感知能力[2]。也正是由于相同的原因,当行业上大数据成为常态的时候,清华人工智能研究院院长,清华人工智能研究院院长,中国科学院院士张钹在CCAI上却站出来表示:对人工智能来说最重要的能力是知识,而非数据。要建立具有可解释、鲁棒性强的人工智能[3]。

相比于主流方向而言,前瞻性的内容必然是小众而孤独的。相较于用Seq2Seq做闲聊,以简单填槽为主做任务驱动的业内常见对话解决方案来说,我们的方案甚至有些格格不入。但我们仍然具有同行者,无论是各个领域提出前瞻性的大咖,还是与我们志同道合一起在孤独中前行的同志。

参考文献
[1]Derek Hoiem.The Golden Age of Computer Vision[EB/OL].https://medium.com/reconstruct-inc/the-golden-age-of-computer-vision-338da3e471d1,2019-6-26.

[2]朱松纯.浅谈人工智能:现状、任务、构架与统一 | 正本清源[EB/OL].https://mp.weixin.qq.com/s/-wSYLu-XvOrsST8_KEUa-Q,2017-11-02. 

[3]杨晓凡.张钹院士:人工智能的魅力就是它永远在路上 | CCAI 2019[EB/OL].https://www.leiphone.com/news/201909/deVAlp63P9UiWbmt.html,2019-09-21.

1、猎云网原创文章未经授权转载必究,如需转载请联系官方微信号进行授权。
2、转载时须在文章头部明确注明出处、保留官方微信、作者和原文超链接。如转自猎云网(微信号:lieyunjingxuan
)字样。
3、猎云网报道中所涉及的融资金额均由创业公司提供,仅供参考,猎云网不对真实性背书。
4、联系猎云,请加微信号:jinjilei
相关阅读
推荐阅读
{{item.author_display_name}}
{{item.author_display_name}}
{{item.author_user_occu}}
{{item.author_user_sign}}
×