麻省理工学院的研究人员警告说,深度学习正在接近计算极限。

2020-07-19 12:01:48

我们正在接近深度学习的计算极限。这是根据麻省理工学院、麻省理工学院-IBM沃森人工智能实验室、安德伍德国际学院和巴西利亚大学的研究人员得出的结论,他们在最近的一项研究中发现,深度学习的进展一直“强烈依赖”计算机的增加。他们断言,持续的进步将需要“戏剧性地”提高计算效率的深度学习方法,要么是通过改变现有的技术,要么是通过新的尚未发现的方法。

“我们的研究表明,深度学习并不是偶然造成的计算成本高昂,而是设计出来的。同样的灵活性使它在建模不同的现象和超越专家模型方面表现出色,也使它的计算成本大大增加,“合著者写道。“尽管如此,我们发现深度学习模型的实际计算负担比理论上(已知的)下限增长得更快,这表明可能会有实质性的改进。”

深度学习是机器学习的一个子领域,研究的是受大脑结构和功能启发的算法。这些被称为人工神经网络的算法由层层排列的功能(神经元)组成,这些功能将信号传递给其他神经元。这些信号是输入数据输入网络的产物,从一层传到另一层,慢慢地“调整”网络,实际上是调整每个连接的突触强度(权重)。该网络最终通过从数据集中提取特征并识别交叉样本趋势来学习进行预测。

研究人员分析了来自预印服务器Arxiv.org以及其他基准来源的1058篇论文,以了解深度学习性能和计算之间的联系,特别关注图像分类、对象检测、问题回答、命名实体识别和机器翻译等领域。他们对反映两种可用信息的计算需求执行了两个单独的分析:

每个网络遍的计算量,或给定深度学习模型中单遍(即权重调整)所需的浮点运算数。

硬件负担,或用于训练模型的硬件的计算能力,计算方法为处理器数量乘以计算速率和时间。(研究人员承认,虽然这是一种不精确的计算方法,但他们分析的论文中对此的报道比其他基准更广泛。)。

合著者报告说,除了从英语到德语的机器翻译之外,所有基准都具有“高度统计意义”的斜率和“强大的解释力”,后者使用的计算能力几乎没有变化。对象检测、命名实体识别和机器翻译尤其显示出硬件负担的大幅增加,而结果的改善相对较小,在流行的开源ImageNet基准测试中,计算能力解释了图像分类准确率的43%的变化。

研究人员估计,三年的算法改进相当于计算能力增加了10倍。他们写道:“总的来说,我们的结果清楚地表明,在深度学习的许多领域,训练模式的进展都依赖于计算能力的大幅增加。”“另一种可能性是,获得算法改进本身可能需要计算能力的补充性提高。”

在研究过程中,研究人员还外推了这些预测,以了解达到各种理论基准所需的计算能力,以及相关的经济和环境成本。即使根据最乐观的计算,降低ImageNet上的图像分类错误率也需要增加105倍的计算。

一份同步的报告估计,华盛顿大学的格罗弗假新闻侦测模型在大约两周的时间里培训成本为2.5万美元。据报道,OpenAI为培训其GPT-3语言模型筹集了高达1200万美元的资金,谷歌估计花费了6912美元培训BERT,这是一种双向转换器模型,重新定义了11个自然语言处理任务的最先进水平。

在去年6月的另一份报告中,马萨诸塞大学阿默斯特分校(University Of Massachusetts At Amherst)的研究人员得出结论,训练和搜索某种型号所需的电力涉及大约62.6万磅的二氧化碳排放。这几乎相当于美国汽车寿命排放量的五倍。

“我们并不预期目标…所暗示的计算要求。硬件、环境和货币成本将是令人望而却步的,“研究人员写道。以经济的方式实现这一点将需要更高效的硬件、更高效的算法或其他改进,以便净影响是如此巨大的收益。

研究人员指出,在算法层面进行深度学习改进是有历史先例的。他们指出,谷歌张量处理单元、现场可编程门阵列(FPGA)和专用集成电路(ASIC)等硬件加速器的出现,以及试图通过网络压缩和加速技术降低计算复杂性。他们还引用了神经体系结构搜索和元学习,它们使用优化来找到在一类问题上保持良好性能的体系结构,作为获得计算效率改进方法的途径。

事实上,OpenAI的一项研究表明,自2012年以来,将AI模型训练成与ImageNet中图像分类性能相同的计算量,每16个月就会减少2倍。谷歌的Transformer架构超越了之前最先进的模型--同样由谷歌开发的seq2seq--在引入seq2seq三年后,计算量减少了61倍。DeepMind的AlphaZero系统从无到有地自学了国际象棋、手势和围棋,一年后,与该系统的前身AlphaGoZero的改进版本相匹配,所需的计算量减少了八分之一。

“深度学习模型所使用的计算能力的爆炸式增长结束了‘AI冬天’,并为计算机在广泛任务上的性能设定了新的标杆。然而,深度学习对计算能力的巨大胃口限制了它在目前形式下提高性能的程度,特别是在硬件性能改进放缓的时代,“研究人员写道。“这些计算限制的可能影响是迫使…。机器学习向着比深度学习更高效的技术发展。“