• 0
AI又赢了!Facebook人工智能击败全球顶尖德扑选手
统计 阅读时间大约5分钟(1992字)

2019-07-12 AI又赢了!Facebook人工智能击败全球顶尖德扑选手

“自人工智能第一次获胜之后,人类就很难再赢过它了。”

【猎云网(微信号:ilieyun)】7月12日报道 (编译:柠萌)

Darren Elias是一名扑克玩家。今年32岁的他是唯一一个赢得过四次世界扑克巡回赛冠军的人,在锦标赛上获得的奖金累计超过700万美元。尽管他已经相当专业了,但今年春天他还是从一个人工智能机器人身上学到了一些新东西。

Elias正在帮助测试由Facebook人工智能实验室和卡耐基梅隆大学研究人员共同开发的一款新软件。他和另一名职业玩家Chris Ferguson各打出了5000手,对战五个名为Pluribus的机器人副本。

最后,机器人以很大的优势领先。在这个过程中,Elias注意到一些事情:虽然机器通常被认为是缺乏灵感的,但这个机器人比一般的扑克专家更有胆量。Elias说:“它会赌上两三倍的赌注,而人类不会这么做。我对它们下的巨额赌注很感兴趣,以后将在自己的扑克比赛中尝试。”

Pluribus的胜利具有里程碑式的意义,不仅仅是因为一个新机器人向专业的玩家教授了新策略。这款软件是第一款在多人游戏《德州扑克》中击败顶级专业人士的游戏。周四发表在《科学》杂志上的一篇论文描述了Pluribus是如何战胜Elias和Ferguson的;在一个机器人副本与5名人类专业人士进行的10000手扑克游戏中,Pluribus也轻松获胜。

“如果你让这个机器人与5名精英专业人士在一起比赛,机器人可以打败他们,而且能从他们身上赚钱。”Facebook人工智能实验室研究员、Pluribus联合创始人Noam Brown表示,“就扑克而言,这真的是黄金标准。”

布朗大学教授Michael Littman曾从事电脑扑克研究,虽然没有参与该项目,但他对此表示赞同。扑克一直被视为人工智能研究人员的一大挑战,其特点与许多现实世界的情况相似。与国际象棋不同的是,扑克玩家必须在不知道对手持有什么牌的情况下选择行动,这在政治、商业和战争中都是如此。之前大多数工作都是关于双人游戏的,现在在多玩家游戏中取得了进展。Littman说,现在扑克人工智能的最后一个重要里程碑已经建立。他说:“这是许多研究人员数十年努力的结果。”

Brown与卡内基梅隆大学教授Tuomas Sandholm共同创建了Pluribus。Brown之前是桑德霍尔姆实验室的一名研究生,两人于2017年建造了一个名为Libratus的机器人,成为第一个在双人模式下击败专业人士的软件。

Brown在加入Facebook后启动了Pluribus项目,但他说这家社交媒体巨头并没有考虑这项技术的具体应用。他说:“项目的目标是对不完全信息和大规模多代理系统进行基础研究,”,这句话也恰当地描述了Facebook的主要服务。长期来看,在Pluribus上测试的想法可以帮助自动驾驶汽车预测其他司机的行为,或者改进欺诈检测算法。

Sandholm说,他已经证明了这款软件的商业价值,以及国家安全价值。他创办了两家公司,将他实验室的人工智能战略技术商业化。

其中一家名为Strategic Machine的公司致力于改进电子游戏中的机器人,并帮助公司设定最优价格,以考虑竞争对手的反应。另一个是Strategy Robot。2018年他与五角大楼签署了一份为期两年的合同,价值高达1000万美元;Sandholm和五角大楼都拒绝对这份合同透露更多细节。但Sandholm表示,Strategy Robot的卖点之一是利用扑克和他的其他人工智能项目中已得到验证的理念,使模拟的、甚至是真实战场的战略对敌人的行动更加有效。尽管Pluribus的一些核心技术早于该项目,但与Facebook合作的项目中没有任何一项将授权给Sandholm的公司。

Pluribus与Libratus的相似之处在于,它通过与自己的版本进行数万亿手的对弈来积累技能。在每一次尝试之后,系统都会回顾发生了什么,以及哪些可能会有更好的表现。所有改进都会添加到它的核心策略中。

在很大程度上,这款新机器人能够玩比它之前的版本复杂得多的游戏,因为它更擅长微调核心策略,通过预测游戏中某个特定点的可能结果,即搜索功能。Brown和Sandholm早期的机器人试图绘制出游戏最后可能出现的所有问题。但六人游戏的可能性几乎无穷无尽,要探索需要太多的计算能力。

相反,Brown和Sandholm开发了一个搜索功能,它一次只向前移动几步。为了避免令人不快的意外,还将考虑如果对手改变策略,不同行动的价值将如何变化。因为在像扑克这样的游戏中,有些信息是隐藏的,所以这种搜索功能以前还没有很好地应用。

Brown表示,这种新方法的优势还在于对计算能力的要求不高,使得运行Pluribus的成本相对较低。这款机器人需要在一个64位处理器内核的强大服务器上与自己进行8天的对战,才能掌握这款游戏,而为DOTA 2等复杂电子游戏开发的人工智能机器人则需要在数十万个处理器上进行数周的培训。“花150美元在云计算服务上就可以开发类似的东西,因此将其应用到其他领域是切实可行的,”Brown说。

这对搭档在编写代码时没有考虑的一点是要在扑克中赢钱。“我们不会发布代码,部分原因是这将对在线扑克社区产生重大影响,”Brown说。“我们正试图让人工智能社区的人们能够接触到这一点,而不是那些想制作扑克人工智能的人。”

尽管如此,他承认这些技术无论如何都有可能传播开来。一年后,还会有人开发出类似于Pluribus的机器人吗?“我认为这完全有可能,”Brown说。

Elias对此有所期待。他说,自从Libratus出现以来,由于机器人变得更加复杂,人们不再那么热衷于玩高风险的在线游戏。他还表示:“如果你在玩一个高风险的在线游戏,你很可能是在和一个机器人或由机器人帮助的人类对战。”

Elias说,扑克专业人士和爱好者不应该被最新的人工智能技术所吓倒,它可以提高游戏的水平。他很乐意帮助测试Pluribus,因为他欣赏人工智能的科学,以及像押注更大价值这样的新见解的潜力。

尽管如此,他还是承认自己有点难过。终极扑克机器人Pluribus的问世,标志着扑克游戏的一个历史性转折点。他说:“从16岁开始,我就开始打扑克,并把我的一生都奉献给了它,现在被机器打败是一件很丢脸的事。自人工智能第一次获胜之后,人类就很难再赢过它了。”

1、猎云网原创文章未经授权转载必究,如需转载请联系官方微信号进行授权。
2、转载时须在文章头部明确注明出处、保留官方微信、作者和原文超链接。如转自猎云网(微信号:lieyunjingxuan
)字样。
3、猎云网报道中所涉及的融资金额均由创业公司提供,仅供参考,猎云网不对真实性背书。
4、联系猎云,请加微信号:jinjilei
相关阅读
推荐阅读
{{item.author_display_name}}
{{item.author_display_name}}
{{item.author_user_occu}}
{{item.author_user_sign}}
×