7月20号,由杉数科技举办的大师圆桌系列第三场AI时代与博弈与行为分析在上海召开,杉数科技创始人兼首席科学家葛冬冬出席,并对此次活动的主题给出如下介绍:“今天主要讨论AI这个事情主要聚焦的两点,一是优化的技能、二是博弈论。今天杉数科技请来了Tuomas Sandholm教授,这些里面主要用到这些技能,跟大家谈一谈AI技术如何服务于公众、社会,同时如何创造新的商业机会”。
以下是Tuomas Sandholm教授的演讲,经猎云网(ilieyun)整理:
博弈论在高级的层面有两个优势:第一个是结构的设计,或者说机制的设计。比如说在我自己的研究中,我们研发了软件系统,我们的一些算法在美国的一些大学里运营了肾脏交易系统。我在这里讲的就是在那些大学讲过的课程。我来中国的原因就是希望这个机制能够被应用到中国来。我于2000年创办了那家公司,在公司被收购前的9年里,我们实现了800多场大规模组合型多属性拍卖会的商业化,成交金额达到了600亿美元,并实现了60亿美元的盈余。从2012年至今,我执掌一家叫优化机制的公司,专为销售和市场活动提供组合型机制,所以,我们的业务包含广告宣传,方案制定,宣传费用等。
但是今天,我受邀前来讨论的不是机制设计,而是博弈论的另外一个优势,那就是你怎样设计出理性游戏的方案。
不完美信息博弈指的是在过程中有些信息不是所有人都知道的博弈。它不像围棋或者象棋,你知道所有信息,知道正在发生什么,所以它更像扑克牌,或者安全游戏,或者谈判,最主要的区别在于不完美信息。你或许听说过AlphaGo, 它是有Google旗下的 Deepmind开发的一款重要的程序,曾经打败了人类最好的棋手李世石。这些都是完美信息博弈。你可以把AlphaGo的技术应用到任何完美信息博弈中去,但绝不可能把它应用到不完美信息博弈中。所以在完美信息博弈中,赢得博弈最典型的技术是搜索,在此过程中你总是尽力寻找,去思考你最好的高招。即使你缺乏专业领域知识,从规则上来说,至少只要你能够清楚局势,你就知道下一步该怎么做。
在不完美信息博弈中,在博弈之外还有一个额外的结构,被称为信息集。信息集中的结点表明,2号玩家不知道他是否在这个结点,所以这样的信息处于被隐藏的状态。2号玩家可以推测1号玩家将要使用的策略。我们怎样去决定怎样去博弈才是理性的?约翰.纳什1950年代引入了他的观点纳什均衡理论。对于玩家来说,这是一个很宽泛的策略。在纳什的均衡博弈中,没有玩家能够改变博弈的策略,并因此不能提高获胜的几率。在纳什均衡理论中,没有任何一个玩家可以提高超过8%的获胜几率。这里,如果选择卖出的利率为0,那么一个纳什均衡就是1号玩家选择卖出和不卖出的概率相等,均为50%。无论硬币是正面向上还是反面向上,2号玩家将猜测两者向上的概率都是1/2并不认输,这是一个纳什均衡。
当我们应对这些不完美信息博弈的时候,我们发明了独立于领域之外的技术,换句话说,它的应用是独立的,他们不仅仅是为解决某种问题的。完全信息博弈技术不能够加以应用,原因在于不确定其他人会怎么做以及机会会倾向于那一边,但是更为重要的是,别人已经怎么做了,以及机会已经倾向了哪一边。这向我们透露了一部分隐藏信息,一种隐藏的状态。然后我们必须讨论一下,对手的举动是如何向我们透露他的私人信息的,以及反过来,我们的举动怎样像对手透露我们的个人信息的。比较幸运的是我们不需要去推测行动是怎样透露个人信息的,但是从纳什均衡的定义来说,如果我们想要寻找到纳什均衡,对对方行为的解读就一定要清楚。所以扑克牌就成了人工智能领域博弈论面临的一种挑战。纳什的博士论文极大地改变了经济学和其它领域的研究,为此纳什获得了1994年的诺贝尔经济学奖,它唯一的应用领域就是扑克牌。之后关于数学运作研究的论文层出不穷。在人工智能领域的研究毫无建树,但是在2004年前后,这一领域的研究呈爆发式增长。在之后的13年里,相关研究不断取得进步。
未来这些理论如何运用到商业中。涉及到AI的还有很多领域,比如机器学习和深度学习,这恐怕是与AI相关的最热门的领域。这里是基本上全部的AI商业解决方法的领域。这与机器学习是完全基于不同的东西。机器学习是摄取过去的信息,并为现在做决定。而这是关于对未来的推测。我认为至少有两部分相关内容,一部分是今天所讲的博弈理论,现在我们已经达到了超人类水平。我想这是个转折点,你愿意把商业上最重要的决定交个一个会做出错误决定的人去做吗?当然不愿意。除非考虑到节约人力的问题,但这都是微不足道的考虑。但现在AI却可以有比人更强的战略性推理。这就像一场竞赛,看谁愿意雇佣这个机器员工来为公司做更好的决定。另外一方面是利用对手的问题。我们也做了很多相关工作,但要知道如何运用到实践中。就是说,当我们发现对手的策略错误时,我们可以如何对此进行利用?机器学习显然是目前最热门的方向,但如果你想关注还没有广泛应用到实践的内容,这肯定是其中一部分。
我最近成立了一个叫做策略机器的公司,旨在将我从2004年开始在实验室研究的技术成果实现商业化。大部分实践的案例都与此博弈类似,都有多个玩家,有时两个有时更多,并且是不完美信息。所以你不要期待有像下围棋象棋一样的信息,并且你不会是单独玩家。有时候你看起来像是单独玩家,但实际上不是。
为什么要用于战略性标价?如今当公司提供产品的最优价格时,他们确定这一策略是有竞争性的。我了解到杉数也做过关于定价的很多项目,其中就涉及到很多复杂理论。当你看到对手更改价格,你就应该有所反应。但这样一来,你就会永远落后于对方。如果运用战略性标价,你就可以提前预测各种招数,打败对手,如同扑克游戏一般。而在产品组合优化中,假设你是一家工厂,如何组合产品不仅仅依赖于消费者的需求,还取决于你的竞争对手下一年会提供什么产品。
另外,关于下一代网络安全问题。在这一问题上,通常都是不完美信息,很像博弈。我们做过的工作有人工干扰,最优交流策略和干扰策略都需要用到博弈理论。当然还有很多运用领域,比如,如何发现和利用各种软件的弱点?用何种算法找到它们?这取决于软件的竞争对手在做什么。找到之后又如何与他们博弈?
此外,杉数科技联合创始人兼首席科学家葛冬冬对Ai的优化和博弈研究颇深,以下是葛冬冬的演讲(经猎云网编辑整理):
我的科研方向主要是在大规模优化方面,所以就是我们刚才Tuomas Sandholm教授也提到过现在看AI的设计,和一年前就很不一样,一年前和现在相比大家更注重强调于这些计算嘛,就是说优化的技巧是要充分去用的,做一些评估的时候,你需要一些比较严格的计算去评估,这样的话,实际上就是说不管在AIpha Go,还是德州扑克,每一步需要做削减和估计的时候都用得上,Tuomas Sandholm教授提到比方说在大规模的的应用一些技巧,这些技巧是非常重要的,再有就是比如说game,像博弈论的一些优化,这些都是非常重要的,我们搞优化的人,就是做优化理论算法的,以前从事这个的,也能感觉到,工业的发展来看,从我们的个人感受,我们搞优化的人最大一个比较好的感觉,我们发现忽然间我们很值钱了,跟以前完全好像身价不一样了,就是公司对我们非常感兴趣,这是我们发现大趋势上能感觉出来的。
第二个,我同事大家也看到,我是科研之外,我们是杉数科技的科学家,帮杉数做很多项目,做项目的时候我们发现,里边有很多问题需要考虑的不仅仅是是一个优化的问题,很多时候需要考虑到人类的行为,对吧?就是说,这些行为有的时候会给你的问题带来额外的难度,就像刚才何老师谈到过一些,比方是我们去考虑定价的时候,我们不止是说我们算一算根据我以前的情况找到价格的弹性,把最优价格出来就行了,Tuomas Sandholm教授提到过,就是他们也是有自己的策略的,怎么根据他们的策略做你的定价,跟你的顾客、竞争对手去博弈,包括就是何老师刚才也提到过很好的例子,像库存这些事情,里头就是说,你这个顾客去买你的东西以后,他有自己的库存,他会根据你的价格,根据你周围的情况建立自己的小小的库存,所以这些情况下,就是说,他也在跟你博弈,你便宜我多买,你不便宜我就不买,所以这里头有很多东西不光是价格的问题和库存的问题,就是我们到我们讲新零售的时候,我觉得这些事情涉及到很多商业的事情,不再是说说仅仅是一个数据驱动,然后一个继续学习,把好的资源配置算出来,算的过程中必须考虑复杂情况下的情况,顾客需求包括整体大环境,所以整体来讲,我觉得不管是学术还是商业里面都有很多,就是当我们今天谈AI的时候,引爆了很多技巧在里头,这是都是非常重要的。
8月,杉数科技还将举办大师圆桌系列的其他活动,猎云网将持续关注。