重要的不仅仅是尺寸：性能类似于GPT-3的小型型号

2020-09-24 21:57:40

下载PDF摘要：当扩展到数千亿个参数时，预先训练的语言模型，如GPT-3(Brown等人，2020年)在挑战自然语言理解基准上取得了显著的少数几次表现。在这项工作中，我们证明了参数计数小几个数量级的语言模型可以获得与GPT-3相似的性能。这是通过将文本输入转换为包含某种形式的任务描述的完形填空问题，并结合基于梯度的优化来实现的；此外，利用未标记的数据会带来进一步的改进。基于我们的发现，我们确定了使用小语言模型成功理解自然语言所需的几个关键因素。

https://arxiv.org/abs/2009.07118