分散强化学习

2020-07-12 01:09:44

今天各种人工智能系统背后的许多神经网络结构与一个世纪前的早期计算机有着有趣的相似之处。就像早期的计算机是专门用于特定目的的电路,如解线性系统或密码分析一样,训练有素的神经网络通常也作为执行特定任务的专门电路发挥作用,所有参数在同一全局范围内耦合在一起。

人们可能自然会想,学习系统可能需要什么才能以与编程系统相同的方式扩展复杂性。如果抽象使计算机科学能够扩展的历史提供了任何指示,一个可能的起点将是考虑在多个抽象级别上构建复杂的学习系统意味着什么,其中每个学习级别都是从下面的层学习的紧急结果。

这篇文章讨论了我们最近的论文,介绍了一个社会决策的框架,通过一个原始主体的自组织社会的视角来看待强化学习,我们证明了一个激励机制的最优性,以工程社会来优化集体目标,我们的工作也提供了提示性的证据,我们开发的分散强化学习算法的本地信用分配方案有助于更有效地转移到新的任务。

从公司到生物体,我们世界上的许多大系统都是由较小的个体自主组件组成的,它们的集体功能比任何单独组件的目标服务于更大的目标。例如,一家公司就像一个单一的超级代理人一样优化利润,而实际上它是一个由自私自利的人类代理人组成的社会,每个人的担忧可能与利润关系不大。每个人也只是器官、组织和细胞单独适应并做出自己更简单的决定的抽象。

你知道你想的和做的每件事都是你自己想的和做的。但是你是什么呢?什么样的较小的实体在你的头脑中合作来做你的工作?

在多个抽象级别上构建复杂学习系统的核心是了解将连续级别绑定在一起的机制。在为决策而学习的上下文中,这意味着定义三个要素:

一种将原始Agent社会封装为超级Agent的框架。

一种保证超级代理决策问题最优解的激励机制作为原语优化其个人决策问题的结果而出现。

激励机制是将原始智能体的优化问题与作为超级智能体的社会优化问题联系起来的抽象屏障。

构建多层次的复杂学习系统需要定义将原始智能体层次的优化问题与社会层次的优化问题联系起来的激励机制。激励机制是将作为超级代理人的社会与其构成的原始代理人分开的抽象屏障。

如果有可能以原始Agent的主导策略均衡与超级Agent的最优解一致的方式构建激励机制,那么在理论上可以将社会忠实地抽象为超级Agent,然后超级Agent可以作为下一级抽象的原语,依此类推,从而在学习系统中构建表征现代软件基础设施的编程系统的越来越高的复杂性级别。

在深度强化学习中,直接优化这一目标的方法是将策略参数化为一个将状态映射到动作并进行调整的函数,它建立在我们所熟悉的现有框架上的马尔可夫决策过程(MDP)。在深度强化学习中,直接优化这一目标的方法将策略参数化为一个将状态映射到动作并进行调整的函数。在深度强化学习中,直接优化这一目标的方法是将策略参数化为一个将状态映射到动作并进行调整的函数。在深度强化学习中,直接优化这一目标的方法将策略参数化为一个将状态映射到动作并进行调整的函数。在深度强化学习中,直接优化这一目标的方法将策略参数化为一个将状态映射到动作并进行调整的函数。

我们称这种标准方法为整体决策框架,因为所有可学习的参数都是在一个单一目标下全局耦合在一起的。整体决策框架从指令性经济的角度看待强化学习,其中所有的生产-过去状态$s_t$到未来状态$s_{t+1}$的转换-和财富分配-奖励信号对参数的信用分配-直接来自单一的中央权力机构-MDP目标。在MDP目标中,所有的生产-过去状态$s_t$到未来状态$s_{t+1}$的转换-财富分配-奖励信号到参数的信用分配-直接来自单一的中央权威-MDP目标。

但正如至少20年前的研究表明的那样,我们也可以从市场经济的角度来看待强化学习,在市场经济中,生产和财富分配由相互买卖国家的行为之间的经济交易来管理,而不是像在单一框架中那样被被动地由全球政策选择,这些行为是通过在拍卖中竞标来主动选择何时在环境中激活自己以将状态$s_t$转换到下一个状态$s_{t+1}$的原始代理。我们称之为社会决策框架,因为这些行为形成了原始代理的社会,这些原始代理本身寻求最大化其在每个州的拍卖效用。换句话说,原始代理的社会形成了一个超级代理,作为原始代理的结果,该超级代理解决了MDP问题。最优拍卖策略。

在我们最近的工作中,我们形式化了社会决策框架,并开发了一类分散强化学习算法,用于优化超级代理,作为优化原语的副产品';拍卖效用分析表明,采用Vickrey拍卖作为拍卖机制,初始化每个原语的冗余克隆,就会产生一个社会,我们称之为克隆Vickrey社会,其原语优化其拍卖效用的主导策略均衡与社会集体代表的超级智能体的最优策略一致。特别地,在以下拍卖效用的规范下,我们可以利用Vickrey拍卖的真实性来激励原始智能体,我们记为$ω^{1:N}$,以此来激励原始智能体,我们称之为$ω^{1:N}$,其最优策略均衡与社会集体所代表的超级智能体的最优策略一致。特别地,在以下拍卖效用的规范下,我们可以利用Vickrey拍卖的真实性来激励原始智能体(我们记为$ω^{1:N}$。

出价最高的基元$\hat{u}^i_{s_t}$的效用$\hat{\omega}^i$由它在下一个时间步从拍卖中出售$s_{t+1}$获得的收入减去它从上一个时间步的拍卖获胜者那里购买$s_t$所支付的价格$\max_{j\neq i}\mathbf{b}^j_{s_t}$给出。收益由环境奖励$r(s_t,\hat{omega}^i)$加上下一时间步的折扣最高出价$\max_k\mathbf{b}^k_{s_{t+1}}$给出。根据Vickrey拍卖,价格由当前时间步长的第二高出价给出。失去代理的效用是$0$。

获胜基元从$s_t$产生$s_{t+1}$而获得的收入取决于$t+1$的获胜基元愿意竞标$s_{t+1}$的价格。反过来,$t+1$的获胜基元将$s_{t+2}$出售给$t+2$的获胜基元,依此类推。最终货币以环境回报为基础。根据未来基元决定竞标劳动成果来分配财富。

在Vickrey拍卖下,每个原语的主导策略是诚实地准确地出价它将获得的收入。利用上述效用函数,原语';由于拍卖中出价最高的原语在环境中采取相应行动的最优Q值,总体上处于均衡状态的社会激活了具有最高最优Q值的智能体--超级智能体的最优策略。因此,在我们考虑的受限环境下,社会决策框架、克隆的Vickrey社会和分散强化学习算法为将原始智能体的学习问题与超级智能体的学习问题联系起来提供了上述三个方面的答案。因此,我们考虑的约束环境下,社会决策框架、克隆的Vickrey社会和分散强化学习算法为将原始智能体的学习问题与超级智能体的最优策略联系起来提供了上述三个方面的答案。

社会决策从自组织原语Agent的角度构建了标准强化学习框架,我们接下来讨论的是,原语Agent不必局限于文字操作,这些Agent可以是将一个状态从一个状态转换到另一个状态的任何计算,包括半MDP中的选项或动态计算图中的函数。

在单一决策的计划经济系统中学习需要全球信用分配路径,因为所有可学习的参数都是全球耦合的,而在社会决策的市场经济系统中学习只需要在空间和时间上局部的信用分配,因为原语只针对其直接的局部拍卖效用进行优化,而不考虑社会的全局学习目标。事实上,我们发现证据表明,以这种方式框架社会学习问题的内在模块性在转移到新任务时具有优势。

我们认为在迷你健身房环境下,要从前期达到绿色目标的训练任务转移到达到蓝色目标的任务上来。$\Phi^0$表示打开红色门的选项,$\Phi^1$表示达到蓝色目标的选项,$\Phi^2$表示达到绿色目标的选项。与特定选项$\phi^i$相关联的原语通过在环境中执行该选项来激活。信用保护Vickrey克隆的Vickrey指的是我们基于社会的分散强化学习算法,它比配备用于选择相同选项的分层整体基线和仅选择文字动作的非分层整体基线的学习效率要高得多。特别是,我们观察到,与我们的方法相比,分层整体基线的权重在转移过程中发生了更高百分比的移动,这表明分层整体基线的权重更加全局耦合,因此转移速度可能会更慢。

从类比的角度将观察重新表征为更熟悉的事物一直是人类认知研究的一个重要课题。一个特别直观的例子是罗杰·谢泼德(Roger Shepard)研究的心理旋转,它表明人类似乎在大脑中对某些类型的图像识别进行了心理旋转操作。受上述工作的启发,我们在前人工作的基础上,考虑了一项图像识别任务,其中我们将每个原始主体定义为代表不同的仿射变换。通过使用MNN的分类准确率,我们发现了一种新的图像识别任务,该任务的目标是将每个原始主体定义为代表一个不同的仿射变换。原语协会通过反复地将不熟悉的图像重新表示成分类器知道如何分类的更熟悉的图像,来学习模仿类比的制作过程。

该协会通过类比数字的规范对应物来学习对转换后的数字进行分类。这里$\omega$表示原始代理,$\psi$表示该代理的投标策略,$\φ$表示该代理的仿射变换。此图显示了一个具有冗余原语的社会,其中克隆用撇号表示。文中讨论了冗余对健壮性的好处。

在不同抽象层次上对智力进行建模的根源在于人工智能的早期基础,而将头脑建模为代理人的社会可以追溯到柏拉图的共和国。在这种受限的环境中,原始代理人在拍卖中寻求最大化的效用,而社会寻求最大化回报。在这种受限的环境中,原始代理人寻求在拍卖中最大化效用,而社会寻求最大化回报

在某种意义上,这些复杂的学习系统是增长的,而不是构建的,因为每个抽象层的每个组件都在学习。但是,就像编程方法论作为一种定义构建复杂编程系统的最佳实践的学科出现一样,我们也需要指定、构建和测试指导复杂学习系统增长的脚手架。这种类型的深度学习不仅在表示层次上很深,而且在学习层次上也很深。

Michael Chang要感谢Matt Weinberg、Tom Griffiths和Sergey Levine在这个项目上的指导,以及Michael Janner、Anirudh GoYal和Sam Toyer的讨论,这些讨论启发了这里写下的许多想法。

参考文献