Google Brain的研究人员已经开源了Switch Transformer,这是一种自然语言处理(NLP)AI模型。与T5 NLP模型相比,该模型可扩展至1.6T参数,并且将训练时间提高了多达7倍,并且精度相当。
该团队在arXiv上发表的一篇论文中描述了该模型。开关变压器使用专家混合(MoE)范例来组合多个变压器注意模块。因为仅使用模型的子集来处理给定的输入,所以可以增加模型参数的数量,同时保持计算成本的稳定。与Google最新的T5 NLP模型相比,Switch Transformer的基准版本可以在1/7的培训时间内实现目标培训前的困惑度指标。 1.6T参数版本在困惑度指标上胜过T5-XXL,尽管对一半的数据进行了训练,但在下游NLP任务上具有可比或更好的性能。
Transformer架构已成为用于NLP研究的主要深度学习模型。最近的工作集中于增加这些模型的大小(以参数数量衡量),其结果可能超过人类的表现。来自OpenAI(GPT-3模型的创建者)的一个团队发现,NLP性能确实遵循幂律关系随参数数量扩展。在开发Switch Transformer时,Google Brain团队寻求最大程度地增加参数数量,同时保持每个训练示例和相对较少数据训练的FLOPS数量恒定。
为此,该模型使用了专家混合(MoE)方案。 MoE由一支研究团队于1991年开发,该团队的成员包括深度学习先驱和Switch Transformer的共同创始人Geoff Hinton,随后在多伦多大学任职,现在在Google Brain工作。 2017年,Hinton和Google Brain的同事使用MoE基于137B参数的递归神经网络(RNN)创建了一个NLP模型,该模型在语言建模和机器翻译基准方面取得了最新的成果。
开关变压器使用一种改进的MoE算法,称为开关路由:代替激活多个专家并组合他们的输出,开关路由选择一个专家来处理给定的输入。由于各个专家模型托管在不同的GPU设备上,因此简化了路由计算并降低了通信成本。然而,该方案的一个缺点是训练不稳定性的机会增加了,特别是在使用降低精度的算术时,这是由于“硬”的原因。切换决策。该团队通过减少用于初始化模型参数的比例因子来缓解这种情况。
该团队利用Mesh-TensorFlow(MTF)来训练模型,从而充分利用了数据和模型并行性。为了研究该架构在不同规模下的性能,该团队训练了从223M参数到1.6T参数的不同大小的模型,发现“最有效的扩展尺寸”。是专家的数量。将在预训练和下游NLP任务上的模型性能与每个样本需要类似FLOP的T5模型进行了比较。基准尺寸的开关变压器模型在GLUE,SuperGLUE和SQuAD基准测试中的性能优于T5,同时将预训练时间提高了7倍。具有1.6T参数和2048名专家的大型开关变压器在预训练的困惑度方面优于13B参数的T5模型,而完成时间仅为1/4。
在关于Reddit的讨论中,评论者指出Google Brain团队没有将其模型的性能与GPT-3进行比较,推测这是由于OpenAI发布的结果中缺乏信息。另一位评论者指出:
尽管需要付出一定的硬件成本,但获得准确性的时间却非常可观。 所有这些都不是Google的问题,但我可以理解,至少到目前为止,为什么OpenAI不太热衷于这些模型。 尽管Google尚未发布Switch Transformer的预训练模型权重,但实现代码可在GitHub上获得。 上周在InfoQ上收集的内容汇总于每个星期二发送。 加入由超过25万名高级开发人员组成的社区。 查看范例 选择您同意的国家/地区,我同意InfoQ.com按照本隐私声明中的说明处理我的数据。