【AI星球(微信ID:ai_xingqiu)】10月23日报道(编译:福尔摩望)
编者注:本文作者为Sakyasingha Dasgupta,日本创企LeapMind首席科学家,此前曾是IBM日本分部高级研究员,专项负责认知计算领域。
无论是平常的包裹运输还是紧急搜索和救援任务,这些现实生活中的问题需要无人机或者其他自动机器人采用移动和高效的解决方案来应对。凭借机器学习和受昆虫启发的基于矢量的导航系统,代理设备可以无需依靠GPS就能够达到关键地点,实现真正的自动化。
机器人可以使用摄像机和其他传感器获得的信息,根据环境感官线索学习如何独立导航至山火发生地。由于矢量可以在地图文本中表示,所以多个代理之间可以互相交流地点,加快救援和灭火速度。
这种协调的灵活性和速度将大大提高自然灾害中救援任务的成功率和效率,并拯救生命。向大自然学习将有助于未来在复杂的现实世界环境中实现长距离的自主导航。
我们可以从蚂蚁身上学到什么
蚂蚁和蜜蜂都是出色的导航员。例如,撒哈拉沙漠蚂蚁可以在高于60°C的恶劣条件下觅食并生存下去。在这种极端环境下,它们无法像其他蚂蚁一样使用信息素跟踪自己的长距离路程返回巢穴。相反,他们采用一种被称为路径集成的生物计算。它们通过天空亮度指南针(它们看待天空亮度颜色的模式和我们人类有很大的差别)和计量学刺激来估计当前的位置。
路径集成不仅可用于安全返回巢穴,还有助于学习所谓的矢量记忆。这些记忆已经被证明足以让蚂蚁和蜜蜂产生目标导向的导航。由于这些能力能够让蚂蚁和蜜蜂导航数百里,所以这种控制系统在人造代理设备的应用上具有很大的潜力。
受到这个想法的启发,我开始与来自葡萄牙Champalimaud中心的Dennis Goldschmidt和来自南丹麦大学的Poramate Manoonpong博士进行合作。在我们发布在《Frontiers in Neurorobotics》(神经机器学前沿)的论文中,我们解释了如何为自主代理设备开发目标导向导航的神经计算模型。我们的模拟机器人能够学习和存储基于路径集成的矢量记忆。
从蜜蜂到机器人
我们的虚拟数学模型有一个类生物的神经网络组成,该神经网络学习将矢量表示为跨越圆形数组神经元活动模式的规则。路径集成机制接收来自代理上的罗盘传感器和速度计的输入。这些在网络中输入的集成计算出一个活动模式,它代表了设备当前位置的矢量。
神经模型的所有组件都在标准的笔记本电脑上运行,其中内置了两种在仿真中创建的人工代理。初步的模拟包括模拟二维环境中的昆虫行为。然后,我们在一个基于三维物理的模拟器中,使用该模型,对具有19自由度肢体运动范围的模拟复合六组机器人进行了路径集成和导航测试。这证明了数学模型的有效性及其在复杂步行机上的实现。Manoonpong在南丹麦大学的团队将会把这一导航系统部署在受昆虫启发的物理机器人AMOS-II上。
奖励学习
我们的代理设备还使用基于奖励的学习规则来加强从路径集成获取的矢量记忆。在昆虫的世界中,这样的奖励会是食物地点。我们研究的模型不仅在代理中再现了目标导向和路线形成,而且还可以预测昆虫的导航行为。更重要的是,它为真实世界导航设备中的决策应用提供了一个简单的计算框架。
在模拟中,奖励是设备学习与感官线索相关联的积极信号。自测试以来,即使没有全球定位系统,机器人仍可以使用我们的路径集成机制来保持对基地位置的连续跟踪。
闭环
在进一步的研究中,我们受生物系统启发建立了一个闭环学习框架,集成了多种代理决策的学习机制。受人类大脑学习机制的启发,这一框架允许强化学习与其他学习机制(如监督学习)在闭路循环中工作。
允许多种学习机制反馈的闭环网络取得了更有效率的进展,从而让自主代理更快的学习新任务。目前大多数深度学习或深度强化学习都只集中使用和优化一种学习机制。然而,受大脑启发的闭环方法可能会提供一个更有效率和可扩展的学习框架。