基于行为组合的快速强化学习

2020-10-13 19:59:55

想象一下，如果每次你想学一道新食谱时，你都必须重新学习如何切、剥和搅拌。在许多机器学习系统中，当面对新的挑战时，Agent往往不得不完全从头开始学习。然而，很明显，人们学习的效率比这更高：他们可以将以前学到的能力结合起来。就像有限的词典可以重新组合成意义近乎无限的句子一样，人们重新调整用途，重新组合他们已经拥有的技能，以应对新的挑战。

在自然界中，当动物探索并与其环境互动以收集食物和其他奖励时，就会产生学习。这是强化学习(RL)捕捉到的范例：与环境的相互作用根据结果奖励(或惩罚)强化或抑制特定的行为模式。最近，RL与深度学习的结合已经带来了令人印象深刻的结果，比如可以学习如何玩棋盘游戏的代理，全系列的雅达利游戏，以及更现代、更困难的视频游戏，如Dota和StarCraft II。

RL的一个主要限制是目前的方法需要大量的培训经验。例如，为了学习如何玩单个Atari游戏，RL代理通常消耗对应于几周不间断游戏的数据量。麻省理工学院和哈佛大学的研究人员领导的一项研究表明，在某些情况下，人类能够在短短15分钟的游戏中达到同样的表现水平。

这种差异的一个可能原因是，与人类不同，RL代理通常从头开始学习一项新任务。我们希望我们的代理利用在以前的任务中获得的知识来更快地学习新任务，就像厨师比以前从未准备过菜肴的人更容易学习新食谱一样。在最近发表在“美国国家科学院院刊”(PNAS)上的一篇文章中，我们描述了一个旨在赋予我们的研究人员这种能力的框架。

为了说明我们的方法，我们将探索一个日常活动的例子：通勤上班。想象一下下面的场景：座席必须每天从家里通勤到办公室，而且在路上总能喝到一杯咖啡。在代理人的家和办公室之间有两家咖啡馆：一家咖啡很好，但路程较长，另一家咖啡不错，但通勤时间较短(图1)。根据代理对咖啡质量的重视程度与给定日期的匆忙程度，它可能会选择两条路线中的一条(图1所示地图上的黄色和蓝色路径)。

传统上，RL算法分为两大类：基于模型的代理和无模型代理(图2和图3)。基于模型的代理(图2)构建了环境的许多方面的表示。这种类型的座席可能知道不同位置是如何连接的，每个咖啡馆的咖啡质量，以及任何其他被认为相关的信息。无模型代理(图3)对其环境的表示要紧凑得多。例如，一个基于价值的非模型代理将只有一个数字与每条可能的离家路线相关联；这是每条路线的期望值，反映了咖啡质量与通勤长度之间的具体权衡。以图1所示的蓝色路径为例。假设这条路径的长度为4，代理沿着它获得的咖啡被评为3星。如果座席关心通勤距离比关心咖啡质量多50%，则此路径的值将为1(-1.5 x 4)+(1 X 3)=-3(我们使用与距离相关的负权重来表示不希望通勤时间更长)。

我们可以将咖啡质量相对于通勤距离的相对权重解释为代理人的偏好。对于任何固定的首选项集，无模型代理和基于模型代理将选择相同的路由。那么，如果最终结果是相同的，为什么要有更复杂的世界表示，就像基于模型的代理所使用的那样？如果代理人最终喝的是同一杯咖啡，为什么要了解这么多关于环境的知识呢？

偏好每天都会改变：座席在计划去办公室的路线时，可能会考虑它有多饿，或者开会是否迟到。无模型代理处理这一问题的一种方法是学习与每一组可能的首选项相关联的最佳路线。这并不理想，因为学习每一种可能的偏好组合都需要很长时间。如果有无限多的偏好，也不可能学习到与每一组可能的偏好相关联的路线。

相反，基于模型的代理可以适应任何一组偏好，而无需学习，只需想象所有可能的路线，并询问它们将如何很好地实现其当前的思维模式。然而，这种方法也有缺点。首先，“心智”地生成和评估所有可能的轨迹可能需要大量的计算。其次，在复杂的环境中构建整个世界的模型可能非常困难。

无模型代理学习得更快，但很难改变。基于模型的代理很灵活，但学习起来可能很慢。有中间解决方案吗？

行为科学和神经科学最近的一项研究表明，在某些情况下，人类和动物根据算法模型做出决定，该算法模型是无模型方法和基于模型的方法(这里和这里)之间的折衷。假设是，就像没有模型的代理人一样，人类也以数字的形式计算替代策略的价值。但是，人类不是总结一个单一的数量，而是总结描述他们周围世界的许多不同的数量，这让人想起基于模型的代理人。

赋予RL特工同样的能力是可能的。在我们的示例中，对于每条路线，这样的代理将有一个表示预期咖啡质量的数字和一个表示到办公室距离的数字。它也可能有与代理商不是故意试图优化的东西相关的数字，但仍可供其将来参考(例如，每家咖啡馆的食物质量)。代理关心和跟踪的世界方面有时被称为“特征”。正因为如此，这种对世界的表示被称为后继特征(以前在其最初的化身中被称为“后继表示”)。

后续特征可以看作是无模型表示和基于模型表示之间的中间地带。与后者一样，后续功能总结了许多不同的数量，捕捉到了超越单一价值的世界。然而，就像在无模型表示中一样，代理跟踪的量是总结其所关心的特性的简单统计数据。通过这种方式，后续功能就像是无模型代理的“解包”版本。图4说明了使用后续功能的代理将如何看到我们的示例环境。

后续特征是一种有用的表示，因为它们允许在不同的首选项集下评估路由。让我们再次使用图1中的蓝色路由作为示例。使用后续功能，代理将有三个数字与此路径相关联：其长度(4)、咖啡质量(3)和食物质量(5)。如果代理商已经吃过早餐，它可能不会太在意食物；而且，如果迟到，它可能更关心通勤距离，而不是咖啡的质量--比如说，像以前一样多50%。在此场景中，蓝色路径的值将是(-1.5x4)+(1x3)+(0x5)=-3，如上面给出的示例所示。但现在，在代理饿了的一天，因此它像关心咖啡一样关心食物，它可以立即将此路线的值更新为(-1.5x4)+(1x3)+(1x5)=2。使用相同的策略，代理可以根据任何一组偏好来评估任何路线。

在我们的示例中，代理在路由之间进行选择。更广泛地说，代理将搜索一项策略：在每种可能的情况下都要做什么的规定。策略和路线密切相关：在我们的示例中，如果策略选择从家里走到咖啡馆A的路，然后选择从咖啡馆A到办公室的路，则会穿过蓝色路径。因此，在这种情况下，我们可以互换地谈论策略和路由(如果环境中存在一些随机性，这就不是真的了，但我们将把这个细节放在一边)。我们讨论了后续功能如何允许在不同的偏好集下评估路由(或策略)。我们称这一过程为广义政策评估，简称GPE。

为什么GPE有用？假设代理有一本策略字典(例如，到办公室的已知路由)。给定一组首选项，代理可以使用GPE立即评估字典中的每个策略在这些首选项下的执行情况。现在真正有趣的部分是：基于对已知策略的快速评估，代理可以动态创建全新的策略。它的方法很简单：每次代理必须做出决定时，它都会问以下问题：“如果我做出这个决定，然后遵循具有最大值的策略，那么哪个决定会导致最大的整体值？”令人惊讶的是，如果代理选择在每种情况下导致最大总体值的决策，则最终得到的策略通常比用于创建它的单个策略更好。

这种将一系列政策“缝合在一起”以创造更好政策的过程被称为“一般性政策改进”，简称GPI。图5使用我们的运行示例说明了GPI是如何工作的。

通过GPI创建的策略的性能将取决于代理知道多少策略。例如，在我们的运行示例中，只要代理知道蓝色和黄色的路径，它就会根据咖啡质量和通勤长度的任何偏好找到最佳路径。但GPI政策并不总是能找到最佳路线。在图1中，如果代理不知道以这种方式连接它们的策略(如图中的橙色路由)，它永远不会访问咖啡馆A，然后访问咖啡馆B。

为了说明GPE和GPI的好处，我们现在简要介绍一下我们最近发表的一个实验(有关详细信息，请参阅论文)。这个实验使用了一个简单的环境，它以抽象的方式表示了我们的方法可以有用的问题类型。如图6所示，环境是一个10x10网格，其中分布着10个对象。代理只有在捡到一个对象时才会获得非零奖励，在这种情况下，会在随机位置弹出另一个对象。与对象相关联的奖励取决于其类型。对象类型旨在表示具体或抽象的概念；为了与我们的运行示例相联系，我们将考虑每个对象要么是“咖啡”，要么是“食物”(这些是代理跟踪的特性)。

显然，对于代理商来说，最好的策略取决于它目前对咖啡或食物的偏好。例如，在图6中，只关心咖啡的代理可能会沿着红色的路径前进，而专门关注食物的代理可能会沿着蓝色的路径前进。我们也可以想象一下中间情况，在这种情况下，代理人想要不同重量的咖啡和食物，包括代理人想要避免其中一种重量的情况。例如，如果代理想要咖啡，但真的不想要食物，图6中的灰色路径可能比红色路径更好。

这个问题的挑战是快速适应一组新的偏好(或“任务”)。在我们的实验中，我们展示了如何使用GPE和GPI来做到这一点。我们的代理了解了两条策略：一条是寻找咖啡，另一条是寻找食物。然后，我们测试由GPE和GPI计算的策略在与不同首选项相关联的任务上的执行情况。在图7中，我们将我们的方法与任务中的无模型代理进行了比较，该任务的目标是在避免食物的同时寻找咖啡。观察使用GPE和GPI的代理如何即时合成合理的策略，即使它从未学习如何故意避开对象。当然，由GPE和GPI计算的策略可以用作初始解决方案，稍后通过学习进行改进，这意味着它将与无模型代理的最终性能相匹配，但可能会更快地实现。

图7显示了GPE和GPI在一个特定任务上的性能。我们还在许多其他任务中测试了同一代理。图8显示了当我们改变咖啡和食物的相对重要性时，无模型代理和GPE-GPI代理的性能发生了什么变化。请注意，尽管无模型代理必须从头开始分别学习每个任务，但GPE-GPI代理只学习两个策略，然后快速适应所有任务。

上面的实验使用了一个简单的环境，旨在展示GPE和GPI所需的特性，而没有不必要的混杂因素。但GPE和GPI也已经规模化应用。例如，在以前的论文(这里和这里)中，我们展示了当我们用三维环境取代网格世界时，同样的策略也是如何工作的，在三维环境中，代理从第一人称的角度接收观察(参见这里和这里的说明性视频)。我们还使用GPE和GPI来允许四条腿的模拟机器人在学习了如何只沿着三个方向导航之后，沿着任何方向导航(参见此处的论文和视频)。

关于GPE和GPI的工作是两个独立的研究分支的交叉点，这两个分支分别与这些操作相关。第一个是与GPE相关的工作，是关于继任者代表的工作，始于1993年大燕的开创性论文。达扬的论文开创了神经科学的一系列工作，至今仍非常活跃(参见进一步阅读：神经科学的继任者代表作)。最近，后继者表示重新出现在RL(这里和这里的链接)的上下文中，在那里它也被称为“后继者特征”，并成为那里的一个活跃的研究方向(参见进一步阅读：GPE、后继者特征和相关方法)。后继特征也与一般价值函数密切相关，该概念基于Sutton等人的假设，即相关知识可以用许多关于世界的预测的形式来表示(这里也讨论了)。德

第二个分支研究GPE和GPI的起源，与后者相关，涉及合成行为以创造新的行为。多年来，执行子控制器的分散控制器的想法被多次提出(例如，Brooks，1986)，其使用值函数的实现至少可以追溯到1997年，汉弗莱斯和卡尔松的博士论文就是其中之一。GPI也与等级RL密切相关，它的基础是在1990年和2000年初由Dayan和Hinton，Parr和Russell，Sutton，Precup和Singh，以及Dietterich的作品奠定的。行为的构成和等级关系学习都是当今动态的研究领域(参见进一步阅读：GPI、等级关系学习和相关方法)。

Mehta等人。可能是第一批联合使用GPE和GPI的公司，尽管在他们认为GPI从一开始就减少到单一选择的情况下(也就是说，没有政策的“缝合”)。这篇博客文章中讨论的GPE和GPI版本是在2016年首次提出的，作为一种促进迁移学习的机制。RL中的迁移可以追溯到辛格1992年的工作，最近在深度RL的背景下经历了一次复兴，在那里它仍然是一个活跃的研究领域(参见进一步阅读：GPE+GPI，迁移学习，以及相关的方法)。

请看下面关于这些作品的更多信息，我们还提供了进一步阅读的建议列表。

总而言之，无模型代理不能容易地适应新的情况，例如，要适应它以前没有经历过的偏好集。基于模型的代理可以适应任何新的情况，但为了做到这一点，它首先必须学习整个世界的模型。基于GPE和GPI的Agent提供了一种中间解决方案：虽然它学习的世界模型比基于模型的Agent小得多，但它可以快速适应某些情况，通常性能良好。

我们讨论了GPE和GPI的具体实例，但这些实际上是更一般的概念。在抽象级别，使用GPE和GPI的代理分两步进行。首先，当面对新任务时，它会问：“已知任务的解决方案在这个新任务上的表现如何？”这是GPE。然后，基于此评估，代理组合以前的解决方案来构建新任务的解决方案--即，它执行GPI。GPE和GPI背后的具体机制不如原理本身重要，寻找执行这些操作的替代方法可能是一个令人兴奋的研究方向。有趣的是，行为科学的一项新研究提供了初步证据，表明人类在多任务情况下做出决定时遵循的原则与GPE和GPI非常相似。

GPE和GPI提供的快速自适应为构建更快的学习RL代理提供了希望。更广泛地说，它提出了一种学习灵活的问题解决方案的新方法。代理可以将问题分解为更小、更容易管理的子任务，而不是将问题作为单一的、单一的任务来处理。然后，子任务的解决方案可以被重用和重新组合，从而更快地解决整体任务。这导致了对RL的组成方法，这可能导致更多可伸缩的代理。至少，这些代理商不会因为一杯咖啡而迟到。

感谢吉姆·肯文(Jim Kynvin)、亚当·凯恩(Adam Cain)和多米尼克·巴洛(Dominic Barlow)提供的数字，金伯利·斯塔肯菲尔德(Kimberly Stachenfeld)提供神经科学文献的指导，凯利·克兰西(Kelly Clancy)帮助编写文本。

基于反向强化学习的学徒制学习。Pieter Abbeel和Andrew Y.Ng。国际机器学习会议论文集(ICML)，2004年。

HORDE：一种可扩展的实时架构，用于从无监督的感觉运动交互中学习知识。理查德·S·萨顿，约瑟夫·莫达伊尔，迈克尔·德尔普，托马斯·德格里斯，帕特里克·M·皮拉尔斯基，亚当·怀特。自治代理和多代理系统国际会议(AAMAS)会议论文集，2011年。

强化学习机器人中的多时间尺度关联。约瑟夫·莫代伊尔，亚当·怀特，理查德·S·萨顿。从动物到动物，2012。

泛值函数逼近器。汤姆·绍尔，丹·霍根，卡罗尔·格雷戈尔，大卫·西尔弗。国际机器学习会议论文集(ICML)，2015年。

深度后继强化学习。书名/作者声明：[by]A.。Arxiv，2017年。

使用深度后继表示的可视化语义规划。朱宇科，丹尼尔·戈登，埃里克·科尔夫，迪特尔·福克斯，李斐-菲，阿比纳夫·古普塔，鲁兹贝·莫塔吉，阿里·法哈迪。IEEE国际计算机视觉会议记录(ICCV)，2017年。

具有后续功能的深度强化学习，可在相似环境中导航。张经纬，Jost Tobias Springenberg，Joschka Boedecker，Wolfram Burgard。IEEE/RSJ智能机器人国际会议。

https://deepmind.com/blog/article/fast-reinforcement-learning-through-the-composition-of-behaviours

你想让人们做正确的事吗？让他们省去内疚之旅

2020-8-26 12:16

行为健康初创企业的五大成功因素

2020-8-14 2:43

社会应该如何评判患有脑瘤的被告？

2020-8-7 5:34

伊朗间谍不小心泄露了一段自己黑客行为的视频

2020-7-16 21:44

tags users