从奖励中学习似乎是最简单的事情。我煮咖啡,我喝咖啡,我很开心。我的大脑将“煮咖啡”视为一种能带来奖励的行为。

这是深度加强学习背后的引导洞察力,这是一个着名的戏剧族游戏目录的算法系列,并在策略游戏中胜过人类。在这里,AI“代理”探讨了游戏,尝试了不同的动作和注册让它获胜的动作。

除了它并不那么简单。“酿造咖啡”不是一种动作;这是一系列跨越几分钟的一系列行动,那里你只能在最终得到奖励。只需品尝最终产品,您如何学习到微调研磨粗糙度,水到咖啡比,酿造温度,以及Gazillion其他因素,导致奖励美味,腐败咖啡?

这是“稀疏奖励”的问题,它在我们凌乱,复杂的世界中具有讽刺意味的是非常丰富的问题​​。我们不会立即从我们的行动中获得反馈 - 只有磨咖啡豆的视频游戏风格的叮当声或点 - 但是,我们能够学习和执行整个臂和手动运动,同时睡着了。

本周,来自Uberai和Openai的研究人员合作了在AI上赋予这个人才

诀窍是鼓励AI代理人将“返回”到上一步,这是一个对获胜的解决方案有前途的。然后代理保留该状态的记录,重新加载它,并再次分支以故意探索可能已留在第一个远程后面的其他解决方案。视频游戏玩家很熟悉这个想法:活着,死,重新加载保存的点,尝试别的东西,重复完美的贯穿。

新的算法系列,被视为“去探索”,扼杀了令人难以置信的狂热的阿塔利游戏,就像蒙特沙姆的复仇一样,以前无法通过它AI.前辈们,在一路痛击人类的表现。

这不仅仅是游戏和数字乐趣。在一个机器人臂的计算机模拟中,团队发现,在给定非常稀疏的奖励时,允许它允许它允许它解决一个具有挑战性的动作。由于总体思想是如此简单,作者说,它可以调整和扩展到其他现实问题,例如药物设计或语言学习。

成长的烦恼

如何奖励一个算法?

作者说,奖励是很难设计的。就拿让机器人去拿冰箱来说吧。只有当机器人到达目的地时,它才会得到少量的奖励,这就好比让一个没有空间和危险概念的婴儿爬过充满玩具和其他障碍物的潜在雷区,朝冰箱走去。

“在实践中,强化学习非常有效,如果你有非常丰富的反馈,如果你能说,‘嘿,这个招式好,那个招式坏,这个招式好,那个招式坏,’”研究作者Joost Huinzinga。然而,在提供很少的反馈的情况下,“奖励可以故意导致死胡同。随机探索的空间只是没有削减它。“

另一个极端正在提供更密集的奖励。在同一个机器人到冰箱例中,您可以经常奖励机器人,因为它沿着它的旅程,基本上有助于“映射”成功的精确配方。但这也是令人不安的。过度持有AI的手可以导致一个极其刚性的机器人,忽略新的添加到其路径 - 一种宠物,例如导致危险情况。这是一个欺骗性的AI解决方案,在一个简单的环境中似乎有效,但在现实世界中崩溃。

团队说,我们需要的是可以解决这两个问题的AI代理商。

智能探索

关键是返回过去。

对人工智能来说,动力通常来自于“探索新的或不寻常的情况,”惠津加说。它很高效,但也有明显的缺点。首先,人工智能可能会过早地停止回到有希望的领域,因为它认为自己已经找到了一个很好的解决方案。另一方面,它可能会因为探索问题下一步的机制而忘记之前的决策点。

对于一个复杂的任务,最终结果是一个AI,它是随机困扰到解决方案,同时忽略潜在更好的。

Huinzinga解释道:“在困难的游戏中,玩家在收集奖励后离开之前访问过的地方是行不通的,因为你可能会遗漏一些重要线索。

Go-Explore用一个简单的原则解决了这些问题:首先返回,然后探索。从本质上讲,该算法保存了它之前尝试过的不同方法,并加载有希望的保存点(再次有可能导致胜利),以便进一步探索。

再深入一点,AI会存储游戏中的屏幕帽。然后,它会分析保存的点和组图像,它们看起来很像一个潜在的有望返回的“保存点”。清洗和重复的方法。AI尝试着最大化自己在游戏中的最终得分,并在获得新记录时更新自己的保存点。因为雅达利通常不允许人们重新访问任何随机点,所以该团队使用了模拟器,这是一种模仿雅达利系统的软件,但具有随时保存和重新加载等定制功能。

这个把戏像变魔术一样奏效。当在OpenAI健身房(现在通常用于测试强化学习算法的基准)与55款雅达利游戏较量时,Go-Explore击败了最先进的AI竞争对手的几率超过85%。

它也被ai击败了以前无与伦比的游戏。蒙特萨州的复仇例如,游戏要求玩家移动方块主角佩德罗(Pedro)穿过地下寺庙的迷宫,同时避开陷阱和敌人等障碍,收集珠宝。一次糟糕的跳跃可能会使通往下一阶段的道路脱轨。这是奖励稀少的一个典型例子:你需要采取一系列好的行动才能获得奖励。

Go-Explore不仅打败了游戏中的所有关卡,这也是AI的第一次。它还打破了人类世界纪录,在较低水平上增强学习算法的得分也高于以往任何记录。

在游戏环境之外,Go-Explore还能够提高模拟机器人手臂的性能。虽然人类很容易遵循高层次的指导,如“把杯子放在橱柜的这个架子上”,但机器人往往需要明确的训练——从抓杯子到识别橱柜,在避开障碍物的同时向它移动,以及学习在放下杯子时不打碎杯子的动作。

在这里,与现实世界类似,数字机器人手臂只有在把杯子放在正确的架子上(四个架子中)时才会得到奖励。当与另一种算法较量时,Go-Explore迅速想出放置杯子所需的动作,而它的竞争对手甚至很难可靠地把杯子捡起来。

组合力量

就其本身而言,Go-Explore背后的“先返回,然后探索”理念已经很强大了。该团队认为它可以做得更好。

一个想法是改变保存点的机制。不是通过仿真器重新加载保存的状态,可以训练神经网络来做同样的事情,而不需要重新启动保存状态。这是一个潜在的方法,使AI甚至更聪明,团队说,因为它可以““去克服一次障碍,而不是一次又一次地解决同样的问题。”缺点呢?它的计算量更大。

另一个想法是将Go-探索与替代的学习形式相结合,称为“模仿学习”。在这里,AI观察人类行为并通过一系列动作模仿它。结合探索,研究作者Adrien Ecoffet,这可能会使能够处理现实世界中所有复杂性和混乱的更强大的机器人。

对于团队来说,威胁远远超出了探索。“第一次回归,然后探索”的概念似乎特别强大,建议“这可能是一般学习的基本特征”。团队说,“利用这些见解......可能是必不可少的......创造一般聪明的代理商。”

图片来源:Adrien Ecoffet, Joost Huizinga, Joel Lehman, Kenneth O. Stanley和Jeff Clune

范雪来是一位神经科学家出身的科学作家。她在不列颠哥伦比亚大学(University of British Columbia)完成了神经科学博士学位,在那里她开发了神经退化的新疗法。在研究生物大脑时,她开始对人工智能和所有生物技术着迷。毕业后,她搬到了加州大学旧金山分校,研究以血液为基础的因素,使衰老的大脑恢复活力。她是……

遵循搁置: