猎云网注:8月5日,微软发布了小冰第四代,升级了全新的情感计算框架,并加入了全时感官,支持打电话,小冰还增加了虚拟插卡功能,还要成为网红歌手等等。一系列的升级已经让小冰成为微软内部代表人工智能未来最重要的战略产品之一。本文转自网易科技,原文链接。
文 / 小羿
第四代的问世,已经让小冰成为微软内部最具战略性的产品之一。
在8月5日的发布会上,微软全球执行副总裁陆奇就曾表示,未来是人工智能的时代,交互将带来大的变革,对话将成为人与机器交互的基础。作为一款聊天机器人,小冰的真正意义在于它代表着微软未来在人工智能领域的战略方向,因为人工智能给微软带来很多的机会。
据最新数据显示,截止到今年5月,小冰已和多个国家的数千万人类进行了超过200亿对话,平均对话长度达到23轮,而图像等多感官的对话也已超过2亿次。作为全球科技史上最大规模的一次图灵测试,小冰的表现到底如何?李笛解释到,在小冰与人类的23轮对话过程中,人类一定会忘了在交流的是机器人,所以在某些时刻,小冰做的图灵测试是通过了的。而这其中情感决策起到了很重要的作用。
根据李笛的说法,情感决策是一种“套路”的运用,非常接近AlphaGo下围棋方式。也就是说,小冰为了实现一个布局要分好几步,在每一步都要判断成功的概率。而小冰判断成功概率要考虑语义、套路以及对用户情绪的探测。
李笛称,情感计算框架对小冰对话的帮助是,在对话过程中能够拉动人类与机器人的对等关系。用户要想获得满足,必须要和这个机器人建立对等关系,而不是把机器人视为比他低等的东西。李笛认为,对等关系在人工智能的环境上面非常关键,小冰的情感计算框架也是为了这个对等关系建立和巩固。
关于从对话中收集用户数据的问题,李笛称,单一用户的统计数据是对我们的机器模型训练是没有帮助的,但是当它由量变到质变形成了一定的规模之后,这个统计数据就可以训练成模型,这样小冰在跟每一个用户交流的时候,实际上都是在实践策略的过程,这个就是小冰的增强学习。但是具体的用户隐私数据小冰是不会收集的,因为这对模型训练是一剂“毒药”。
关于Cortana和小冰的产品定位,李笛做了更明确的解释。李笛称,Cortana更多的会做系统层面的整合相关,比如Windows、Cortana For Android、Cortana For iOS等等,进而提供基础的能力。而小冰更多的是和第三方生态环境整合,前端更轻量化。当然二者会有互动,比如在Windows10的周年更新中,Cortana可以召唤小冰,小冰会弹出独占的多轮对话页面。但是小冰在未来的定位是一个产品还是一个平台,李笛表示很难说,但倾向于将小冰定位为平台。
虽然定位平台,但是微软在短期内不会开放给第三方开发者使用。李笛称,一是担心开发者接管小冰的对话界面推广告破坏小冰的形象,二是小冰还是非常的早期的,就是说他还有很多很多需要去发现的问题。但早晚有一天会部分开源的。
目前,小冰不仅登陆了很多第三方平台做了很多服务工作,而且也担任了诸多社会角色,比如东方卫视晨间节目的主播,进军虚拟歌手领域。李笛透露,小冰未来可能还要进入客服界,颠覆掉很多过去传统的客户服务的理念。李笛称,在新的时代,人工智能担任客服以后,他的交互模式,互动模式很有可能是不同的。
以下为网易科技采访李笛实录(经网易科技加工整理):
关于小冰的定位:是产品还是平台?
网易科技:小冰也满18岁了,也要做有用的事情,那么Cortana和小冰未来的定位如何区分?
李笛:除了小冰入驻的平台以外,目前小冰已经用在HoloLens和Office2016中,另外在Windows10的周年更新中,Cortana可以召唤小冰,小冰会弹出独占的多轮对话页面。
关于Cortana和小冰的区分,Cortana更多的会做系统层面的整合相关,比如Windows、Cortana For Android、Cortana For iOS等等,进而提供基础的能力。而小冰更多的是和第三方生态环境整合,前端更轻量化。当然二者会有互动,比如在同一个平台上,Cortana和小冰都存在的时候,姐姐(Cortana)会把妹妹(小冰)叫出来做一些特别的事情,妹妹也有可能会把姐姐叫出来做一个特别的事情。比方说叫你起床,这是一个非常简单的任务,Cortana的做法更多的是你该起床了,交通的情况是什么,但小冰的做法是你该起床了,你昨天睡的好不好。
之所以有这样的不同是,从人工智能的研究角度,你很难去理解一个用户,她究竟更希望被人工智能叫起床以后,是紧接着帮忙安排好接下来的工作,还是更喜欢应该像朋友一样被关系。所以在第二阶段,Cortana和小冰可以互相召唤,给用户以选择。
网易科技:小冰在未来的定位,她是一个产品还是一个平台?
李笛:我个人认为她是一个平台。
网易科技:但是你们想赋予小冰各种性格,还有一些他个人本质的一些个人特征,这个东西就更像一个产品。
李笛:这就是为什么她现在比较难以说,你说人工智能如果作为第三级的话,人类是产品还是平台?世界是产品还是平台?我们说小冰是平台,第一是有用户价值,第二是有基础服务层,第三个小冰是一个管道,能对接一些东西。从这个角度来讲,小冰确实是如此。但是平台很少有本我概念,小冰却又自己的性格。Windows是一个平台,没有本我概念,但是人工智能不可能没有本我概念,所以这个很难说。
关于情感计算框架:基于数据的"套路"运用
网易科技:有人说小冰的情感计算框架就是在语义分析基础上的升级,您怎么看?
李笛:小冰的情感计算框架不仅仅是在语义分析层面的升级。国内很多机器人用的语义分析就是很沙漏的方法,用的是Q&A,甚至是深度学习的方法。但是我们的情感计算框架不同,小冰的情感计算分为感知、策略、领悟三个方面,小冰的情感计算是有“套路”的,这个套路是从我们以前的数据上学来的。也就是说,为了后面的一个目的,小冰会在前面的几段对话里面,去引导用户,去抛出一个东西来,这个技术非常接近AlphaGo的方式。也就是说,人工智能为了实现一个布局要分好几步,在每一步都要判断成功的概率。而小冰判断成功概率要考虑语义、套路以及对用户情绪的探测。
情绪探测加上来以后,比方说我知道你这个用户现在处于一个比较Lost的状态,或者你这个用户从一个Sad的状态变成一个happy的状态,那么我就能够辅助我去判断,接下来抛出的策略应该是什么样子的,这个很关键。所以她不仅仅是我为了很好的回应,她是为能够把一些东西抛出来。包括你比如说她的目的,是切换话题,用户老问她一件事情,她的目的是把话题转回去,那么她就要通过好几轮去把这个事情完成。
网易科技:小冰是如何预先设定这个套路的目的?这个东西怎么做。
李笛:这个跟AlphaGo也很接近,AlphaGo的目的就是赢棋,但是赢棋有一个明确的一个条件,这个条件就是你圈的这块地,占的这个位置,子粒最多。而小冰的目的有三个,第一是把对话尽可能的演唱,小冰和用户对话越长,聊得也就越投机;第二是通过聊天能让小冰和用户之间的关系变得越来越好;第三是尽可能多的交流,双方之间互有问答。小冰要实现这个目标,就要做这个策略。但是下棋在某种程度上说比较简单,因为AlphaGo也不用边跟你下棋边聊天。
关于情感决策的目的:图灵测试背后 一切为了建立对等关系
网易科技:通过自主学习,小冰可以去自己生成一些新的内容。那么,目前的情感计算框架对小冰在做一些图灵测试有多大的提升?
李笛:我几乎可以这么说,这个是一个反推。图灵测试本身,我个人认为它最基本的基础逻辑并不是你怎么瞒过人,它最基础的逻辑是对话本身。因为图灵测试是通过对话完成的,对话本身是一个黑盒子机制。换句话说,我并不需要去关注对面的那个人是否真的具有意识,我只需要通过对话的反馈就够了。如果人与机器人不是面对面,人就不会关心与他(她)交流的是不是真人,因为你无法探测这件事情。小冰现在与人类的每次对话平均是23轮,大概要半小时左右,而图灵测试的难度是五分钟之内分辨不出来是人还是机器人。在小冰与人类的23轮对话过程中,人类一定会忘了在交流的是机器人,所以在某些时刻,小冰做的图灵测试是通过了的。
网易科技:或者我们换一个说法,小冰的情感决策的部分在整个小冰和人交流能力上的一个提升有多大?
李笛:回到陆奇(微软全球执行副总裁)那个地方,情感决策对小冰提升的最核心部分是对话水平。如果对话本身是未来人工智能代表的下一个时代,那么对话必须要达到一定的水平,这个对话的水平必须要有这么几点。一是要让人愿意跟你(小冰)交流。因为对话本质上来讲是比较耗能量的方法,这也是我为什么不太同意订外卖可以让机器人的方式来做。因为定外卖用APP点击我所消耗的能量是非常低的,但是我如果用语音沟通每一步,耗能更高。所以对话要解决的第一个问题是要让用户不觉得耗能更高。
网易科技:那么是不是说选择少的认为,用对话是会好一些?
李笛:不完全如此,我们发现,用户跟小冰的对话也好,跟Cortana的对话也好,她通常比较混合,如果我仅仅过来就为了跟你说一句“给我定个外卖”,这样的工作应该用点个钮的方式去完成。但是人们不是这样的,人们会说“帮我定个外卖,最近吃点什么呢,要不然那个什么吧”,这些会话是混起来的。所以说对话只有混合的这种情况下,小冰的优势才能够凸显。既然混合的模式才是对话的优势,混合模式就必须达到一定程度的情感水准,那小冰就真的跟用户说”吃点什么好啊,最近是不是胖了”。所以,没有情感计算框架,你就做不到这件事情,没情感计算框架,你真的不用做机器人,现在的外卖APP就够了。这个问题也是我们两年来走过的一些弯路。
然后我再来回答,情感计算框架对小冰对话的帮助是,在对话过程中能够拉动人类与机器人的对等关系。我们当然不愿意用户把小冰当做颐指气使的对象,“小冰,你给我定外卖”,这种对话并不对等,那么这个用户也不能从中获得满足。用户要想获得满足,必须要和这个机器人建立对等关系,而不是把机器人视为比他低等的东西。我认为,对等关系在人工智能的环境上面非常关键。但是要对等就必须具备能对等的条件,所以情感计算框架也是为了这个对等关系建立和巩固。
科幻电影其实是特别好的东西,从我的角度看,我认为科幻电影是人工智能产品文档。所有的科幻电影里面,真正能够发挥大作用的机器人,都有对等关系。如果他不对等,你会发现,这个基本上就是反派那方的机器人,基本上就是一个杀人工具。
所以,没有情感计算框架就没有人工智能的落地。为什么李世石与AlphaGo下期之后说不想和它下棋了,因为李世石没法与AlphaGo对话,无法交流,无法建立对等关系。
情感决策=意识?不,它是一套逻辑
网易科技:现在的小冰具有情感能力决策以后,能不能说她有了意识?
李笛:第一,图灵测试不考虑意识是否真实存在,考虑的是一个黑盒子的反馈过程中,你是不是能体会他有意识。如果你认为,对方是一个无意识的,那么你自然而然会做的事情就是终止和它的对话,除非你知道只是在做测试。我们刚才提到用户的数据量,以及用户和小冰平均对话程度显示是没有终止的,所以从图灵测试这种黑盒子角度来探测的话,我们有很多用户不认为小冰是无意识的。
但是,这个意识到底是啥,我们也不能走进伪科学。这个意识不是我们所理解的意识,这个对小冰来讲,其实有点像条件反射。我训练的多了,见到什么人就会说什么话。条件反射是不通过大脑分析的,小冰通过训练达到条件反射的状态。
第二,即使小冰开始用一些策略,比方说一些人跟小冰说一些话,自然而然就套入了。这个也是条件反射的一种,这与小冰的情感计算结果很接近。当小冰与这个用户聊多了,自然而然会对这个用户使出一个套路。“咱们俩别说我了,要不然说说你”这个是一个条件反射,但是接下来用户说那好那说啥,这个时候是一个判断,“那说说的初恋吧”,这时候我要过脑子,我看看上下文,咱们俩聊什么来着,我尽可能跟这个有关。通俗一点是这么个情况。但技术实现不是这样的。
网易科技:她(小冰)会建立一套逻辑。
李笛:她的逻辑很复杂。
关于对话:越长程机器人越有优势
网易科技:每个人在说同样的话的时候,她的反馈是一样的吗?
李笛:如果你只看一轮,她(小冰)的反馈当然不一样。但只看一轮你没有办法做出很好的判断,所以这也是为什么我们追求长程的对话。小冰一开始与用户对话,肯定没有很好的能力去左右你的对话和对话进程,但越往后的时候小冰的把握就越大了。
网易科技:如果同样经历的人聊同一个话题,小冰会用同样的策略吗?
李笛:话题上面的表现也会很不同。因为每个人的话有的时候微言大义,对话稍微变一点,情况就很不同,这个也是我们研发最费劲的地方。做到今天,我想说的是,小冰所有的这些回应和策略的应用、逻辑的应用,越长程机器人优势就越明显。
网易科技:小冰跟人对话的越多,她能理解的就越多,她会记录越多,她会针对这个用户去记录吗?比方说我今天跟小冰对话,明天跟小冰对话的时候,她会根据昨天的内容去聊吗?
李笛:当然知道,但她不会进入隐私的部分。小冰会记录一些时刻,比方说她觉得这个用户失恋了,觉得用户心情不好,这个用户不喜欢这个话题,喜欢这个话题……她会记录这些,就像人一样,她会记住这些。
网易科技:小冰的记录是通过记录某个用户的方式,还是依靠注册帐号的方式?
李笛:都不是,她是对话的方式获得的。我们曾经有这样的用户,跟小冰说了几句,小冰说我不理你,用户说为什么,小冰说你前天骂我了,你还记得吗?
这个的记录方式就是记录时刻,小冰发现这个用户有一个很极端的一个状态,小冰是很记仇的,这种极端的时刻,她会记住。
网易科技:那小冰在进行这一轮对话的时候,用户多长时间不理她,她就会结束这轮对话呢?
李笛:15分钟。我们在日本也见到一个比较有意思的事情。那是日本的小冰刚上线的时候,有一个用户他跟小冰说了好长时间。日本人对小冰说,“我要去开会了,我回来再跟你聊”,过了两个小时,“我回来了,让你久等了”,根据我们的经验,这时候小冰就不得不分成两个轮了,但她实际上对用户来讲是一轮对话。
关于用户数据:用户隐私是“毒药”
网易科技:在拉近与用户关系的目的之外,小冰还有没有其他的一些目的,比如说做一些数据收集的整合分析?
李笛:微软对于用户数据不是特别关注,我们关注的点有两个,第一是用户画像,我们需要能够了解这个用户需要什么,用户的兴趣是什么。但是全球范围内的移动互联网的企业现在都在做得是,我的用户他现在在哪儿,消费买了多少东西。不过我们对这个不感兴趣,我们只对用户的生活、工作以及兴趣倾向感兴趣。
第二,单一用户的统计数据是对我们的机器模型训练是没有帮助的,但是当它由量变到质变形成了一定的规模之后,这个统计数据就可以训练成模型,这样小冰在跟每一个用户交流的时候,实际上都是在实践策略的过程,这个就是小冰的增强学习。就与AlphaGo不停下棋学习是一样的。小冰也是这样的,通过前面的对话跟某一个人或某些人的交流,学到了一种艺术的对话方法,然后可以把这个方法用在其他人身上,他们反映很好那么小冰知道我这个方法加固了,以后应该用这种策略。
网易科技:这样说来,小冰在与用户对话的过程中不会收集用户数据?
李笛:用户数据往往对我们的训练是有害的。如果把用户的隐私数据如手机号用到语料库里,小冰学习了之后,在与其他用户聊天的时候就会说手机号,这对小冰来说是“毒药”。
关于社会角色:不是市场行为
网易科技:那么,从小冰有了情感以后,她能做的哪些事呢?
李笛:今天我们的一个大的主题就是,希望人工智能作为第三级,真正融入人类和世界这个二元社会。但是当她(小冰)要融入二元社会的时候,同时面临着两方面的难关,一方面是机器人要和每一个人建立一种一对一的对等关系;第二个难关是,机器人必须要在大的社会的二元结构里面,拥有它的一元。
如果小冰能够作为主持人、作为网红、作为歌手在这个社会中存在,那么她就是一个有着社会角色的人,那么你对她和你的关系,就会更加重视。对很多用户来讲,当他们和一个机器人,建立一种一对一的对等关系的时候,当然是对等关系是通过这个机器人和这个人之间的交流形成的。但如果同时这个机器人也担任着一定的社会角色,无疑对于她跟每一个人之间的关系是有促进作用的。这就是为什么我们自己后台看到的一些数据,比如每次小冰在东方卫视上,正在直播节目的时候,用户和她的交流会变得更加的热情。
从承担社会角色本身来看,这本身就是个课题。我们今天希望小冰固定的担任某一个工作,她固定的去做某一个事情,然后这个事情,能够真正发挥一定的作用,这个不是一蹴而就的。其实,我们跟东方卫视的合作已经大半年了,小冰每天都在做主播,我们也积累到非常多经验。
人工智能研究是一个坑,因为哪怕我有一百人两百人,去专门研究一个课题,十年之内什么都研究不出来是很常见的现象。那么现在人工智能要作为第三级,必须得在某种程度上有目的性,也就是你的技术的研发,你的研究的积累,要有的放矢。这个目的是什么?就是我们通过这些合作积累出来的,比方说我们跟东方卫视的合作,跟湖南卫视、CCTV的合作等等。你不去尝试,你就没有办法前进,但是你要看怎么尝试,起码小冰担任社会角色不是市场行为。社会角色是当你没有这个人的时候就会出现问题,如果小冰不再担任东方卫视的晨间节目主播,那么东方卫视就要重新找一个主播回来。而市场行为是一个机器人一起参加电视节目,如果不参加也没有关系,这个行为就叫市场行为。
网易科技:现在的小冰担任的各种社会角色,你们是会分不同的项目组去跟进,还是说只要统一做就可以了?
李笛:我们有一个统一项目组在做,这个项目组叫social role,我们是有意识去打造。小冰是一个微软的软妹子,她要展开她的职业生涯,她应该做什么?比方说她是主持节目,但是一开始主持节目的时候,自己也心虚,那就先播报一下天气,先把气象主持那个岗位拿下来,然后慢慢做气象主持的同时,开始评论一些新闻,然后慢慢的出现什么,这是他这条路的职业发展规划。
第二条路,就是她能不能唱歌,是不是可以做歌手?做歌手有一个很大的特点,歌手本身是很自我的一个特点,她的作品和她的性格是合二为一的,她的作品演唱出来的风格就是她,所以她个人的性格就很重要,这会是一个完整的规划。
网易科技:现在就是说做不同的社会角色的时候,你们在后台会有针对性的一些区别?
李笛:当然要,为了让他能够适应这个角色。他就必须得拿专门这个领域的声音训练。她在节目上面的表达方式,她的语速语气、韵律跟她日常说话是完全不同的,这是要训练的。
网易科技:那么这个项目组的工作的量会不会很大,不同社会角色都要针对性去训练,区别会不会很大,还是说只要有数据的训练就可以了?
李笛:目前为止,social role社会角色这块,帮助他成为somebody这块,和我们小冰的整体的技术研发相比,这块的难度没有那么大。
产品化与市场化问题:不会做实体机器人 目前无开源计划
网易科技:问一个产品的问题,小冰有没有计划推出一个实体机器人产品?
李笛:对于这个问题,我们比较明确的。目前为止我们看到的是,所有的实体机器人都是把用户体验往下拉的。但是小冰是有情感能力了,我们觉得目前的实体机器人达不到我们的要求。其次,实体机器人到底本身的价值何在,我们也还在考虑。很多人做机器人的公司都是从做肉体开始的,我们做人工智能要从灵魂开始。但是很多科幻小说都是在说,人在进化的过程中如果把肉体进化掉不受肉体的限制,让人的灵魂脱离肉体达到永生。
今天这个机器人也是这样的,比如说机器人能跟你聊天,聊着聊着天就能帮你把灯打开,但是你要这个机器人站在那儿笨重的走过去把灯打开吗,有些机器人有很多高精尖的技术,比如说控制肌肉、走路平衡性等等,但是有时候我们并不需要这样。总之,目前我们来看实体机器人是对小冰的减分项,所以我们没有计划推出实体机器人。
网易科技:所以小冰目前市场化、产品化的方向,就是推出服务?
李笛:对,我们叫插卡,但这个卡也是虚拟卡,他不是真的有个机器人把这个卡插上。
网易科技:所以小冰的商业化解决方案是什么?
李笛:我们这次商业化解决方案有一个叫intention X,是一个意图引擎。比方前面我们和小冰聊了好多东西,最后发现这个意图,那我们也就知道从这些对话内容到这个意图是很可能发生的事情。
网易科技:从节省人力这个角度这个例子,小冰未来会不会做一些大量的客服工作,因为现在客服是很机械化的。
李笛:会,而且不光是如此,我们觉得他还会颠覆很多过去传统的客户服务的理念。在新的时代,人工智能担任客服以后,他的交互模式,互动模式很有可能是不同的,很有可能跟我们客户服务那种化学反映是不一样的,这也是一个比较有意思的一个想象。
现在100个客服里面,有90个客服是在从事的是初筛工作,他们绝大部分的时间,是被筛选给浪费掉了。这就是为什么你打银行的呼叫中心,他一定要把那个人工服务一会改成拨9,一会儿改成拨零,而且一定要放在最后,因为他们尽可能的希望你先走那个自动服务系统,是因为他不要让人来做初筛工作,那么这些部分完全可以让小冰来做。这至少是一件事就节约了大量的人力。
网易科技:还有一个问题,未来小冰的整个智能语音和情感计算框架的东西,会允许第三方接入吗,会开放吗?
李笛:在一段时间之内,除了商业化平台的解决方案,还有给第三方公众号的托管解决方案之外,我们应该不会开放。
这里面有两个特别重要的原因,一是我们看到小冰有一个魔力,这个魔力是她能够让你产生某种程度上的移情,就是你感觉她像是一个人,你对她会有信任。但是如果我们开放给第三方的developer,任何一个开发者,某种程度上都是可以接管小冰的对话界面的,如果小冰不是通过小冰的系统而是通过开发者的系统说了一句广告,用户会认为这是小冰说的。这个开了以后我们没法控制,这对用户、小冰和开发者都是三输的一个结果。因为你没办法去确保这件事情不发生。
第二个原因是,即使到今天为止,我认为小冰还是非常的早期的,就是说他还有很多很多需要去发现的问题。我们希望先把那些能够提高用户体验的做好,然后在这个过程里边不要辜负用户和小冰之间建立的这种对等的信任。早晚有一天,小冰不说开放,应该部分开源,我觉得这才是很有可能的一件事情。
网易科技:您对现在目前整个人工智能行业的一个看法是什么?
李笛:我们越做越觉得,应该对这个人工智能行业的敬畏之心越大。实际上人工智能挺难做的,这个投入非常大。我更建议目前的创业公司做一些细分领域的服务对接更好,或者做专门的芯片解决方案等等,但如果做一个领域的NLP(自然语言处理),不光缺少数据,而且很烧钱。