Alpha Go从头开始再培训耗资3600万美元

2020-06-11 16:31:43

2017年机器学习取得进步的最令人兴奋的迹象之一是AlphaGo成为世界上最好的围棋棋手。10月份,DeepMind发表了一篇论文,描述了新版本的AlphaGo,名为AlphaGo Zero.仅经过36个小时的训练,AlphaGo Zero就变得比击败李世石的版本更擅长围棋。

不仅如此,AlphaGo Zero在没有任何围棋知识的情况下学会了围棋(也就是说,Tabula rasa)。相比之下,之前出版的AlphaGo版本是在人类围棋数据库的帮助下进行训练的。

这一成就真的很了不起,因为它表明,我们可以开发出一种系统,可以从头开始教自己做不平凡的任务,并最终变得比人类做得更好。这表明,现在整个世界的可能性都触手可及-想象一下,可以教自己做人类能做的任何事情的计算机。

但这样的进步并不便宜。就像人类掌握围棋需要多年的训练一样,计算机掌握围棋需要大量的资源。我估计复制AlphaGo Zero论文中报告的实验需要大约3500万美元的计算能力。

AlphaGo Zero通过模拟与自己的对局来学习下围棋,这一过程被称为自我对局。论文报告了以下数字:

自玩是在一台机器上进行的,这台机器包含4个TPU-由谷歌制造的专用计算机芯片,可以在他们的云计算服务上出租。

参数更新由64个GPU和19个CPU驱动,但事实证明,与用于自玩的TPU的成本相比,这些GPU的成本相形见绌。

一个可疑的数字是在三天的过程中使用的自玩机器的数量。1.使用平均每场围棋比赛211步的估计,我们得出了最终的1595台自玩机器的数量,即6380台TPU。(计算如下。)

按照6.50美元/TPU/小时的报价(截至2018年3月),整个项目仅TPU一项的复制成本就将达到2986,822美元。这只是他们报告的两个实验中规模较小的一个:

随后,我们将强化学习管道应用于AlphaGoZero的第二个实例,使用的是更大的神经网络,持续时间更长。训练再次从完全随机的行为开始,持续了大约40天。

在为期40天的实验中使用的神经网络的层数是在3天的实验中使用的网络的两倍(大小相同),所以假设实验的其他方面没有什么变化,那么做出一个单一的举动需要大约两倍的计算机思考时间。考虑到这一点,回到一系列的计算中,我们得到了复制40天的实验的最终成本为35,354,222美元的TPU。

至于DeepMind(谷歌母公司的子公司)进行这项实验的实际成本,还有其他因素需要考虑,比如研究人员的工资,或者所报的TPU费率可能包括相当可观的边际。但对于谷歌以外的人来说,这个数字是复制这项实验所需成本的一个很好的粗略估计。

看待AlphaGo Zero实验惊人成本的另一种方式是想象需要多少人脑才能提供同样数量的能量。

这并不是说AlphaGo Zero不是一项了不起的成就(它是),AlphaGo Zero向世界展示了可以建立系统来自学完成复杂的任务,只是开发这种通用技术对大众来说仍然是没有的。

也就是说,许多具有现实世界价值的问题不需要(1)学习表格或(2)超人性能,也许通过应用领域知识和AlphaGo Zero中提供的技术,这些问题可以比创建AlphaGo Zero的成本低得多的成本得到解决。

对这篇论文的一种天真的解释是,所有的自玩比赛都是在一台机器上进行的。但这没有道理,因为一台机器在三天的时间里只能进行[72(Hr)×3600(s/hr)]×0.4(s/move)=648,000次移动,而该报报道了4,900,000场比赛。显然,这意味着有多台自助游戏机并行运行。--↩