计划通过自我监督的世界模型进行探索

2020-10-07 09:16:11

国际机器学习会议(ICML),2020强化学习允许解决复杂的任务,但学习往往是任务特定的,样本效率仍然是一个挑战。我们提出了Plan2Explore,一个自我监督的强化学习代理,它通过一种新的自我监督探索的方法和快速适应新任务的方法来解决这两个挑战,这些任务在探索过程中不需要知道。在探索过程中,与以前的方法不同的是,我们的代理通过利用计划来寻找预期的未来新颖性,而不是在代理人已经到达观察结果之后回顾计算它们的新颖性。经过探索,代理以零次或几次的方式快速适应多个下游任务。我们对来自高维图像输入的挑战性控制任务进行了评估。在没有任何培训监督或特定于任务的交互的情况下,Plan2Explore的表现优于以前的自我监督探索方法,事实上,几乎与获得奖励的业绩先知不相上下。

代理首先利用计划以自我监督的方式进行探索,而没有特定于任务的奖励,以学习全球世界模型。在探索阶段之后,它接收奖励函数以适应多个任务,例如站立、行走、跑步,以及使用零个或几个特定于任务的交互。

引用:Ramanan Sekar,Oleh Rypkin,Kostas Daniilidis,Pieter Abbeel,Danijar Hafner,Deepak Pathak。计划通过自我监督的世界模型进行探索。ICML 2020。

[Bibtex]。

@inProcestions{sekar2020Planning,title={Planning to Explore Via Self-Supervised World Models},作者={Ramanan Sekar and Oleh Rypkin and Kostas Daniilidis and Pieter Abbeel and Danijar Hafner and Deepak Pathak},Year={2020},booktitle={ICML}}