人工智能的第一个重大征服是国际象棋。该游戏可能组合的数量令人眼花,乱,但由于它是由一组清晰的规则构成的,因此它相对易于处理。一个算法总是可以完全掌握游戏的状态,并且知道它及其对手可以做出的每一个可能的动作。只需看一下棋盘就可以评估游戏的状态。
但是许多其他游戏并非如此简单。如果您使用类似吃豆人的东西,那么找出理想的举动将涉及考虑迷宫的形状,幽灵的位置,需要清理的其他区域的位置,加电装置的可用性等;以及如果Blinky或Clyde出人意料地采取了行动,最好的计划可能会陷入灾难。我们也开发了可以处理这些游戏的AI,但与征服国际象棋和围棋的AI相比,它们必须采取截然不同的方法。
至少到现在为止。然而,今天,谷歌的DeepMind部门发表了一篇论文,描述了可以同时处理国际象棋和Atari经典游戏的AI的结构。
在象棋和围棋之类的游戏中使用的算法使用基于树的方法来进行计划,在该算法中,它们仅展望当前源自不同动作的所有分支。这种方法在计算上是昂贵的,并且算法依赖于了解游戏规则,这允许他们将当前游戏状态向前投影到可能的未来游戏状态。
其他游戏需要的算法并不真正在意游戏的状态。取而代之的是,这些算法只是评估它们所看到的内容(通常类似于街机游戏在屏幕上的像素位置),然后根据该结果选择一个动作。尚无游戏状态的内部模型,并且训练过程主要涉及弄清楚给出该信息后哪种反应合适。已经进行了一些尝试,例如基于像素信息等输入来对游戏状态进行建模,但是它们并没有像仅对屏幕上的内容做出响应的成功算法那样出色。
DeepMind称为MuZero的新系统部分基于DeepMind与AlphaZero AI的合作,AlphaZero AI自学了掌握基于规则的游戏,如国际象棋和围棋。但是MuZero还增加了新的功能,使其更加灵活。
这种扭曲称为“基于模型的强化学习”。在使用这种方法的系统中,软件使用它可以看到的游戏内容来构建游戏状态的内部模型。至关重要的是,该状态不是基于对游戏的任何了解而预先构造的-AI能够在其中包含或不包含哪些信息方面具有很大的灵活性。事物的强化学习部分是指训练过程,它允许AI学习如何识别模型所使用的模型既准确又包含决策所需的信息。
它创建的模型用于做出许多预测。这些包括在给定当前状态的情况下的最佳可能移动,以及由于移动而导致的游戏状态。至关重要的是,它所做的预测是基于其游戏状态的内部模型,而不是游戏的实际视觉表示,例如棋子的位置。预测本身是根据过去的经验做出的,也需要接受培训。
最后,使用算法预测从该动作获得的任何立即奖励(例如,下棋时棋子的点值)和游戏的最终状态(例如胜负结果)来评估该动作的价值象棋。这些可以包括通过较早的国际象棋算法完成的对潜在游戏状态树的相同搜索,但是在这种情况下,树由AI自己的内部游戏模型组成。
如果感到困惑,您也可以这样考虑:MuZero并行运行三个评估。给定当前游戏状态模型,一个(策略过程)选择下一步。一秒钟可以预测所产生的新状态,以及由此产生的任何立即收益。三分之一的人考虑过去的经验来指导政策决策。这些都是训练的产物,训练的重点是最大程度地减少这些预测与游戏中实际发生的错误。
显然,如果不起作用,DeepMind的人们不会在《自然》杂志上发表论文。 MuZero与前身AlphaZero进行了将近一百万场比赛,以达到国际象棋或将棋的类似水平。对于Go来说,仅在五十万场比赛之后就超过了AlphaZero。在这三种情况下,MuZero都可以认为比任何人类玩家都优越。
但是MuZero在Atari游戏方面也表现出色,以前需要完全不同的AI方法。与之前完全不使用内部模型的最佳算法相比,MuZero在测试的57场比赛中有42场均值和中位数得分更高。因此,尽管在某些情况下它仍然落后,但它现在使基于模型的AI在这些游戏中具有竞争力,同时保持了其处理基于规则的游戏(如国际象棋和围棋)的能力。
总体而言,这是令人印象深刻的成就,并表明了AI的成熟度。几年前,仅在一项任务上训练AI,就像在照片中认出一只猫一样,是一项成就。但是现在,我们能够同时训练AI的多个方面,在这里,创建模型的算法,选择动作的算法以及预测未来收益的算法都同时得到了训练。
在某种程度上,这是具有更高处理能力的产品,这使得玩几百万国际象棋成为可能。但是部分地,这是如果AI能够足够灵活地完成多个遥远相关的任务,这就是我们需要做的。