“GPT-3：语言模型是少有的学习者”，Brown等人。2020(OpenAI)

2020-05-29 10:02:36

下载PDF摘要：最近的工作表明，通过在大量文本语料库上进行预培训，然后针对特定任务进行微调，在许多NLP任务和基准方面都取得了实质性进展。虽然这种方法在体系结构上通常与任务无关，但它仍然需要数千或数万个示例的特定于任务的微调数据集。相比之下，人类通常只需几个例子或简单的指令就能完成一项新的语言任务--这是目前的NLP系统在很大程度上仍然难以做到的。在这里，我们展示了扩展上行语言模型极大地提高了与任务无关的、极少的性能，有时甚至达到了与先前最先进的微调方法的竞争力。具体地说，我们训练了GPT-3，一个有1750亿个参数的自回归语言模型，比以前的任何非稀疏语言模型都多了10倍，并测试了它在少射情况下的性能。对于所有任务，GPT-3在没有任何梯度更新或微调的情况下应用，任务和少量演示完全通过与模型的文本交互指定。GPT-3在许多NLP数据集上都取得了很好的性能，包括翻译、问答和完形填空任务，以及一些需要即时推理或领域调整的任务，如解乱单词、在句子中使用新词或执行3位数算术。同时，我们也确定了一些GPT-3的少机会学习仍然困难的数据集，以及GPT-3在大型网络语料库上面临的方法论问题。最后，我们发现GPT-3可以生成人类评价者难以区分的新闻文章样本。我们讨论了这一发现的更广泛的社会影响，以及GPT-3的一般影响。

https://arxiv.org/abs/2005.14165

堆栈溢出开发者调查2020年

2020-5-28 8:37

2020年开发商调查结果

2020-5-28 0:41

BlizzCon 2020取消

2020-5-27 4:11

宜家2020年产品目录从Verdana切换到Noto(谷歌，单体字)

2020-5-25 3:20

tags users