Google通过Switch Transformer突破了万亿参数的上限

2021-01-19 01:59:40

下载PDF摘要：在深度学习中，模型通常对所有输入重用相同的参数，专家混合（MoE）对此提出质疑，而是为每个传入的示例选择不同的参数。结果是一个稀疏激活的模型-不需要大量的参数-但计算成本却是不变的。但是，尽管MoE取得了一些显著成功，但由于复杂性，通信成本和培训不稳定，阻碍了广泛采用-我们使用Switch Transformer解决了这些问题。我们简化了MoE路由算法并设计了直观的改进模型，从而降低了通信和计算成本。我们提出的训练技术有助于消除不稳定性，并且我们首次证明可以以较低的精度（bfloat16）格式训练较大的稀疏模型。我们基于T5-Base和T5-Large设计模型，以在相同计算资源的情况下将预训练速度提高多达7倍。这些改进扩展到多语言设置中，我们可以在所有101种语言中测量mT5-Base版本的收益。最后，我们通过在＆＃34; Colossal Clean Crawled Corpus＆＃34;上预先训练多达数万亿个参数模型，来提高语言模型的当前规模。并比T5-XXL型号提高了4倍。

https://arxiv.org/abs/2101.03961