阅读时间大约6分钟（2225字）

2018-11-07 人工智能靠什么更快更强？答案是：好奇心

要想AI agent掌握电子游戏的玩法，通常需借助强化学习的训练方法。

【猎云网（微信号：ilieyun）】11月7日报道（编译：Halcyon）

文章的开头，先抛出一个问题：大家在玩电子游戏的时候，一门心思投入进去，会发现自己根本停不下来，是什么原因导致的呢？

这个问题可能有些宽泛，无法给出一个确切的答案。但如果你想要把接新任务，升级或者再玩一把等一系列概括起来，最简单的解释就是“好奇心”——只是想看看接下来会发生什么。事实证明，在指导人工智能玩电子游戏时，好奇心是一个非常有效的动力。

非营利人工智能研究公司OpenAI本周发布的一项研究解释了一个具有好奇心的AI agent如何攻克经典的1984 Atari游戏Montezuma's Revenge。熟练掌握Montezuma's Revenge算是人工智能的一大进步，但不能将其等同于打败Go或Dota 2的里程碑。谷歌旗下的人工智能公司DeepMind2015年发布了一篇开创性论文，解释AI如果通过深度学习在许多Atari游戏里获得高分，击败强大的人类玩家，其中Montezuma’s Revenge是唯一一款得分为0的游戏，算法未能学习如何去玩这个游戏。

游戏难度高的原因在于它的操作方式与AI agent学习的方式不匹配，这也揭示出机器学习存在盲点。

要想AI agent掌握电子游戏的玩法，通常需借助强化学习的训练方法。在这种训练中，agent会被放入虚拟世界，并且会因为某些结果而获得奖励（如增加分数），或是受到惩罚（如失去一条命）。AI Agent开始随机玩游戏，且能学会在反复试验之后改进其策略。强化学习通常被看作是构建智能机器人的关键方法。

Montezuma's Revenge的问题在于它不能为AI agent提供定期奖励。这是一个益智类游戏，玩家必须探索地下金字塔，躲避陷阱和敌人，同时收集解锁门和特殊物品的钥匙。如果你正在训练AI agent攻克这款游戏，可以在它活着通过各个房间并收集钥匙时给予其一定的奖励。但是你该如何教他保存其他物品的钥匙，并使用这些物品来克服陷阱并完成关卡呢？

答案就是：好奇心。

在OpenAI的研究中，他们的agent获得奖励不仅仅是因为跳过尖峰，还为了探索金字塔的新板块。探索新板块的好奇心是一大动力，也促成了agent在游戏中优于人类的表现，机器人在9次闯关中平均得分10000（人类平均得分4000）。OpenAI称，在一次运行中，agent甚至通过了第一关。

OpenAI的Harrison Edwards告诉The Verge：“我们目前已经开发出一个可以探索大量房间，获得大量奖励，偶尔还能闯过第一关的系统。”并补充道，游戏的其他关卡跟第一关类似，游戏通关“只是时间问题。”

攻克“NOISY TV PROBLEM”

OpenAI并非第一家尝试这种方法的实验室，AI研究人员几十年来一直在利用“好奇心”的概念作为诱因。他们之前也曾将此应用于Montezuma’s Revenge，但如果没有指导人工智能从人类的例子中学习，就不会如此成功。

然而，尽管这里的一般理论已经确立，但构建特定解决方案仍然具有挑战性。例如，基于预测的好奇心仅在学习某些类型的游戏时有用。它适用于马里奥这类游戏，游戏过程中探索空间大，关卡设置多，且充斥着从未见过的怪物。但对于Pong这种简单游戏，AI agent更愿意打持久战，而不是真正击败他们的对手。（或许是因为赢得比赛比游戏中球的路径更好预测。）

另一个实验是“Noisy TV problem”，实验中已被编程为寻找新体验的AI agent沉迷于随机模式，例如调谐至静态噪音的电视。这是因为agent对“有趣”和“新”的感觉来源于他们预测未来的能力。在采取某种行动之前，他们会预测游戏之后的情况。如果他们猜对了，很可能是他们之前已经看过这个关卡了。这种机制被称为“预测错误”。

但因为静态噪声是不可预测的，实验中AI agent被放入迷宫中，任务是找到奖励最高的物体。环境中还有一台电视，电视上的频道可由遥控器随机转换，因为每次换台的结果是不可预测的、令人惊讶的，面对这样电视（或类似不可预测的刺激），AI agent变得十分迷惑。OpenAI将这个问题与沉迷于老虎机的人类赌徒进行了比较，人们不知道接下来会发生什么，所以不舍得就此离开。

图片3 Halcyon--HOW TEACHING AI TO BE CURIOUS HELPS MACHINES LEARN FOR THEMSELVES.gif

OpenAI的这项新研究通过改变AI预测未来的方式巧妙地回避了这个问题。准确的方法（称为Random Network Distillation）十分复杂，Edwards和他的同事Yuri Burda将其解释为在游戏的每个界面中设置一些隐藏信息，等着人工智能去挖掘。这个隐藏任务是随机的，无多大意义（Edwards建议道，比方说“屏幕左上角的颜色是什么？”），但可以激励agent继续探索游戏，而不会让它过分容易地受到噪音电视陷阱的影响。

值得注意的是，这个激励因素并不需要大量的计算，这点非常重要。强化学习的方法依赖大量数据来训练AI agent，所以训练中的每一步都需要尽可能快速的完成。

来自Unity的软件工程师Arthur Juliani，同时还是一位机器学习方面的专家，他表示，这正是OpenAI研究工作的亮点所在。Juliani告诉The Verge：“OpenAI使用的方法非常简单，却非常有效。纵观过去应用于游戏的探索方法，复杂有余，且基本上没有给科技圈带来多少印象深刻的结果，相比起来，OpenAI的方法就简单得多了。”

Juliani表示，鉴于Montezuma’s Revenge不同关卡之间的相似性，OpenAI目前完成的工作基本上等同于攻克整个游戏了。但他补充道：“事实上，他们无法确保每次都能闯过第一关，这意味着仍然存在一些挑战。”Juliani还想知道OpenAI的方法是否适用于3D游戏，3D游戏的难度相较其他可能更大，视觉特征更加微妙，且游戏中第一人称视角遮挡了大部分界面。

“3D游戏里，在需要探索的情景中，环境各部分之间的差异更为微妙，这种方法的实际表现可能不会太好，”Juliani说到。