Google开源万亿参数AI语言模型切换器

2021-02-18 07:40:56

Google Brain的研究人员已经开源了Switch Transformer，这是一种自然语言处理（NLP）AI模型。与T5 NLP模型相比，该模型可扩展至1.6T参数，并且将训练时间提高了多达7倍，并且精度相当。

该团队在arXiv上发表的一篇论文中描述了该模型。开关变压器使用专家混合（MoE）范例来组合多个变压器注意模块。因为仅使用模型的子集来处理给定的输入，所以可以增加模型参数的数量，同时保持计算成本的稳定。与Google最新的T5 NLP模型相比，Switch Transformer的基准版本可以在1/7的培训时间内实现目标培训前的困惑度指标。 1.6T参数版本在困惑度指标上胜过T5-XXL，尽管对一半的数据进行了训练，但在下游NLP任务上具有可比或更好的性能。

Transformer架构已成为用于NLP研究的主要深度学习模型。最近的工作集中于增加这些模型的大小（以参数数量衡量），其结果可能超过人类的表现。来自OpenAI（GPT-3模型的创建者）的一个团队发现，NLP性能确实遵循幂律关系随参数数量扩展。在开发Switch Transformer时，Google Brain团队寻求最大程度地增加参数数量，同时保持每个训练示例和相对较少数据训练的FLOPS数量恒定。

为此，该模型使用了专家混合（MoE）方案。 MoE由一支研究团队于1991年开发，该团队的成员包括深度学习先驱和Switch Transformer的共同创始人Geoff Hinton，随后在多伦多大学任职，现在在Google Brain工作。 2017年，Hinton和Google Brain的同事使用MoE基于137B参数的递归神经网络（RNN）创建了一个NLP模型，该模型在语言建模和机器翻译基准方面取得了最新的成果。

开关变压器使用一种改进的MoE算法，称为开关路由：代替激活多个专家并组合他们的输出，开关路由选择一个专家来处理给定的输入。由于各个专家模型托管在不同的GPU设备上，因此简化了路由计算并降低了通信成本。然而，该方案的一个缺点是训练不稳定性的机会增加了，特别是在使用降低精度的算术时，这是由于“硬”的原因。切换决策。该团队通过减少用于初始化模型参数的比例因子来缓解这种情况。

该团队利用Mesh-TensorFlow（MTF）来训练模型，从而充分利用了数据和模型并行性。为了研究该架构在不同规模下的性能，该团队训练了从223M参数到1.6T参数的不同大小的模型，发现“最有效的扩展尺寸”。是专家的数量。将在预训练和下游NLP任务上的模型性能与每个样本需要类似FLOP的T5模型进行了比较。基准尺寸的开关变压器模型在GLUE，SuperGLUE和SQuAD基准测试中的性能优于T5，同时将预训练时间提高了7倍。具有1.6T参数和2048名专家的大型开关变压器在预训练的困惑度方面优于13B参数的T5模型，而完成时间仅为1/4。

在关于Reddit的讨论中，评论者指出Google Brain团队没有将其模型的性能与GPT-3进行比较，推测这是由于OpenAI发布的结果中缺乏信息。另一位评论者指出：

尽管需要付出一定的硬件成本，但获得准确性的时间却非常可观。所有这些都不是Google的问题，但我可以理解，至少到目前为止，为什么OpenAI不太热衷于这些模型。尽管Google尚未发布Switch Transformer的预训练模型权重，但实现代码可在GitHub上获得。上周在InfoQ上收集的内容汇总于每个星期二发送。加入由超过25万名高级开发人员组成的社区。查看范例选择您同意的国家/地区，我同意InfoQ.com按照本隐私声明中的说明处理我的数据。

https://www.infoq.com/news/2021/02/google-trillion-parameter-ai/

谷歌因无法正常运行而从Play商店暂停Trump 2020应用

2021-2-18 7:4

Google较旧的Pixel相机故障率不断提高

2021-2-18 5:7

Google将为Classroom，Meet和其他在线教育工具推出50多个更新

2021-2-18 4:14

据报道，Google在称赞Stadia工作室一周后关闭了它们

2021-2-18 3:33

tags users