GPT-3：令人失望的试卷

2020-05-30 22:06:58

背景：我一直是GPT-2的清华大学高级用户，写了很多关于它的文章，并更全面地改变了它。我的另一篇关于这个话题的文章包括“人的心理医生：一篇批评性的评价”和“变革者的…”(The Transformer Psyguist：A Critical Approval)和“变形金刚”(The Transformer Psyguist)。“解释？”另请参阅我的Tumblr机器人，它使用GPT-2作为核心组件。

我还没有仔细看过这一页，但我相当确定下面的内容：

“GPT-3”只是一个更大的GPT-2。换句话说，这是自GPT-2以来在多个搜索组中流行的“让变革者变得更大”方法的直接推广。

作为提高通用或任务绩效的一种手段，几个工作部门的重点是增加语言模块中的用户数量和/或或通信。“”。[…]。有一项工作直接增加了改造模块的规模，大致按比例增加了传送机和翻转机的比例。(工业和信息化部电子科学技术情报研究所陈冯富珍译为“Folps-per-to-Ken”，译注：译者注)。这方面的工作已经成功地增加了模型尺寸：最初的2.13亿个参数[VSP+17]、3亿个参数[DCLT18]、15亿个参数[RWC+19]、80亿个参数[SPP+19]、110亿个参数[RSR+19]以及最近的17个。

这里介绍的前两个人是机器转换的原始变压器(VSP+17)和BERT(DCLT18)。在这两个人之间，计算机数量并没有增加那么多。

第三个(RWC+19)为GPT-2。在那里，程序计数增加了5倍。显然，GPT-2的目的是“听起来很愚蠢，也太容易了，但如果你只是成为一名变形金刚，事情就会变得令人惊讶”--而这个“GPT-3”的观点也与更大的数字表达了同样的观点。“GPT-2”的意思是“听起来很愚蠢，也太容易了，但如果你只是成为一名变形金刚，事情就会变得令人惊讶”--这个“GPT-3”的意思也是如此。

“GPT-3”是一个拥有1750亿个参数的转换器。这是这一数字的又一次大幅跃升，但新的趋势并没有太大变化。

在某种程度上，这可以称为“GPT-3”：这是GPT-2发起的新的重大变革中的又一步。

但从另一方面来说，称其为“GPT-3”是相当含糊和误导的。GPT-2(很可能)是一个有趣的选择，因为它展示了在人们不知道这种能力的情况下，大变形者的力量。现在每个人都知道了，所以这是有趣的广告中的第一件事。(作为一种解释，请考虑一下，他们的新大型车型提供的“GPT-3”与他们在该段落中最后三款大型车型中的任何一款一样多，也一样轻。)(请记住，他们的新款大型车型提供的“GPT-3”与他们在该段落中最后三款大型车型中的任何一款一样多，也一样轻。)。

这位作者似乎对NLP协会非常感兴趣，我的意思是几乎是以一种完全消极的方式。(我想，尽管是NLP团体的一部分。)。

GPT-2表示，语言模块(文本预测器)在作为NLP基准的特定任务中可以做得很好，或者在某些情况下“至少不能做得好”-即使没有关于这些任务的任何内容。这在某种程度上很巧妙，但主要是为了展示语言模型的力量。

他们在课程中所展示的“零机会”学习--比如“添加tl；博士短信，然后把GPT-2的工作当作‘总和玛丽’来对待”--既怪异又愚蠢，并不是任何人在实践中想要做这些事情的方式。这句话的意思是：“给GPT-2添加一条短信，然后把GPT-2的内容当作‘总和玛丽’来对待”这样的东西是奇怪的、愚蠢的，而不是任何人在实践中想要做这些事情的方式。更酷的是，足够好的语言模特儿可以“做所有事情”，即使是他们没有做的事情；关键不是他们在这些任务上是世界级的，关键是他们的表现和他们较低的环保水平之间的差距。有点像神童。

在GPT-3中，他们引入了一种新的(…。伊什？也许吧？)。如何让语言模特儿在标准标杆上游刃有余。现在的问题是，他们如何才能在整个文本过程中“弄清楚”他们应该做什么，也就是说，不是用一件事来提示模型，比如。

“GPT-3”的NLP通用性要点是，语言模块可以通过这种多提示，也可以通过更大的生成，在标准基准上做得比我们想象的要好得多。把这两个变化放在一起，你甚至可以在一些(许多)任务上击败最先进的水平。

我可以想象一些人认为这是非常重要的，如果他们认为这表明转型的LMS能够以一种非常有效的数据、类似于人的方式“在旅途中捡到东西”，那么他们就会认为这是一种非常重要的东西。“我可以想象，这是非常重要的，如果他们认为这表明转型的LMS能够以一种非常高效的、类似于人的方式”在旅途中捡到东西的话。这将是加里·马库斯(Gary Marcus)的一些担忧。

但这位作者似乎完全、奇怪地没有参与到“边学边学”的行列中。他们的参与者有许许多多的数字将性能与其他人的计数进行比较--更大的数字再一次更好--但我只能找到一个数字，以对比他们的程序K，这是提示符中不同任务示例的数字(在两个大写示例中，K分别是1和4)。(在两个大写示例中，K分别是1和4)，但我只能找到一个图表，对照提示符中不同任务示例的数字K来表示性能(在两个大写示例中，K分别是1和4)。

[原来我第一次读的时候漏掉了另一本书--第4页的图1.2。我在第2部分中讨论了这一点。]。

他们确实有一项任务比没有任务更好(GPT-2使用了零)，但除此之外，这是一条相当平坦的线；显然，这里没有太多进步性的“边学边学”。

(奇怪的是，此图的封顶说明这些是开发集结果，因此不能直接与以横线形式给出的测试集结果相一致-这并不能阻止他们绘制这些结果！否则，他们会报告SUPER GLUE的测试集结果，但仅限于K=32。此外，我也不喜欢这个情节没有错误栏。)。

取而代之的是，他们最感兴趣的是他们能在绝对的标准上取得多好的成绩。

这就是为什么我说它是针对NLP团体的原因：这些是整个团体必须针对的东西，所以从某种意义上说，团体“必须”找到这些结果。但现在，这开始让人感觉像是哈特定律(Good-Hart‘s Law)。

GPT-2之所以如此酷，并不是因为它在这些任务上做得如此出色。它是一个相对较好的语言模型，展示了对语言的新的全面理解。让它在标准基准上做得很好(对我来说)是有价值的，只是作为一种直截了当、半喜剧的方式来指出这一点，有点像用一只非本领的手作画(但不是画得很好)来炫耀自己的艺术才华(但不是画得很好)。(对我来说)只是作为一种火爆的、半喜剧的方式来指出这一点，就像用一只非正式的手画画(但不是画得很好)来炫耀自己的艺术成就。

GPT-2不酷是因为它擅长“问题转换”，它酷是因为它对每件事都很好，以至于它让关于“问题转换”的汽车本身感觉很小，很新奇。(这句话的意思是：“GPT-2很酷，因为它擅长”问题转换“)，它很酷，因为它对每件事都很擅长，以至于它让关于”问题转换“的汽车本身感觉很小，很新奇。

变革者是如此的进步，以至于它让公司创造了一个新的标杆--“SUperGLUE”，因为以前的黄金标准标杆(胶水)现在太容易了。

GPT-3是一个如此轻巧的进步，它甚至在SUPERGLUE上都做得不好。它的手被绑在背后就可以了。

“不，我10岁的数学神童还没有证明任何新的东西，但她可以在10分钟内在数学SAT中得到满分。这不是破土动工吗？“。

我对这个人想得越多，就越感兴趣。变形者们正在进行彻底的尝试。这大概是人们在2020年所能想象到的最低限度的变革。

在我第一次阅读时，我认为只有一个情节显示了性能如何随着K(少数几次取样的数量)而变化，但我错过了这本书非常早的一个，第4页上的图1.2。

这个情节比另一个情节更有感染力，但并没有改变我的看法，即作者对在课文过程中炫耀“进步性学习”不是很感兴趣。

他们试图用图1.2做出的解释是，更先进的学习方式具有更大的模块，因此他们的总体策略--“使用大模块+少镜头学习，在分数上取得好成绩”--得益于上面的输入效应，以及它两个部分(大模块)的内在影响。“用大模块+少镜头学习，在分数上取得好成绩”--得益于上面的输入效应，以及它的两个部分(大模块)的内嵌效应，也就是说，他们的总体策略是：“用大模块+少镜头学习，在分数上取得好成绩”--得益于上面的输入效应，也得益于它的两个部分(大模块)的内在效应。

再说一次，如果你关心NLP标准的分数，这是一种尝试，但我很难看到对所有语言理解的许多有质量的迹象。

他们的作品之一，“学习和使用新词”，给我留下的印象比其他大多数作品都要好，这位作者在这方面缺乏重点，这让我很困惑。(这句话的意思是：“学习和使用新词”)比大多数其他作品更有说服力，而作者在这方面缺乏重点，这让我很困惑。(这是3.9.5节和表3.16。)。这项任务与WUG测试密切相关--加里·马库斯(Gary Marcus)在他的GPT-2考试中提到了这一点--看起来是这样的：

[HUMAN PROMPT]做“远距离”的意思是相对快速地上下跳跃。使用“远”这个词的意义的一个例子是：

[GPT-3继续]有一天，当我和我的小妹妹玩捉迷藏时，她被重新引用了，于是她开始做这些疯狂的荒唐的事情。[GPT-3 CONTINATION]一天，当我和我的小妹妹玩捉迷藏的时候，她被重新引用了，她开始做这些疯狂的遥远的事情。

这是发展语言学家在男童身上研究的那种任务，过去的NLP模特儿也曾遇到过这样的问题。你会认为它的成功会节省最高的账单。申请人在这里报告了一个过程，但将其视为一个单一的杂耍：他们说他们尝试了6次，并获得了6次成功(100%成功率？！)，但他们显然没有充分考虑到这一点，不足以在更大的样本上尝试同样的事情，计算一个真实的模型，显示出不同的效果。(译者注：这句话的意思是：他们说他们尝试了6次，获得了6次成功(100%的成功率？！)，但他们显然没有足够的考虑到在更大的样本上尝试同样的事情，计算一个真实的模型，显示出不同的效果。(这句话的意思是：他们说他们尝试了6次，获得了6次成功(100%的成功率？！)。太棒了！

除了通常的NLP标准之外，他们还尝试了一些“综合型或质量型”任务(3.9节)。他们宣称这样做的目的是让实际学习在“少镜头学习”中扮演的角色清晰起来，使其不再仅仅是外表相似的课文：

探索GPT-3在少发(或零发和一发)设置中能力范围的一种方法是，给它分配任务，要求它执行简单的即时通信反应，重新识别在训练中不太可能出现的新模式，或者快速适应不寻常的任务。

考虑一下具体的任务。让我们承认作者的前提，即该模型不仅为数学问题指定了一些查找表，而且还在动态地“解决问题”。然后，模型在这里可以做两件事(可能是每件事中的一部分)：

它可能已经通过在训练文本中看到许多相关的数字，开发了一个真正的计算方法的内部模型，并且正在应用这个模型来解决像你或我这样的问题。

它可能已经为复杂的抽象任务开发了一些通用的推理能力，这可以将Mtic作为更通用的问题类别的一个典型案例来处理(例如，如果适当的话，它还可以拾取各种+、-等具有非标准含义的“假的语言”)，例如，它还可以选择各种“假的语言”，其中+、-等的含义不是标准的，如果合适的话，它还可以选择不同的“假的语言”(比如+、-等具有非标准的含义)，而Mtic则可以作为更一般的问题类别的一个典型案例(例如，它还可以选择各种“假的语言”，其中+、-等具有非标准的含义，如果适当的话)，例如，它还可以使用Mtic作为更通用的问题类别的一个典型案例

到目前为止，就#1而言，很少有机会学习的多个提示应该是不合适的：如果模型知道Mtic是如何真实(而不是假的)起作用的，因为它是在文本中看到的，那么额外的例子就无助于“完成任务”。(编者注：这句话的意思是：“如果模型知道Mtic的工作原理是真实的(而不是虚假的)，因为它是在文本中看到的)，那么额外的例子对”完成任务“没有帮助。”也就是说，如果它只学会了做实实在在的方法，它就不应该被告知“在这个任务中+符号有标准的含义”，因为它的能力无论如何都依赖于这一点。

所以，如果我们在这里主要看到的是#1，这不是一个很好的演示，很少有机会像发明者认为的那样学习。

到目前为止，就#2而言，几个简短的提示做得更好：它们在可放置的系统的大空间中“定位”系统的“平均值”。但第二点是狂野的：它将代表一种在语言模型中可以找到的非语言通用智能。

我真的怀疑这是工匠们的想法。如果他们认为语言模块是完全通用的，为什么不突出这一点呢？在没有发现自然语言的情况下，已经更清楚地探讨了转换器的具体响应能力，而且很难有理由认为一个非常大的语言专用模型应该在这里开发出强大的能力(虽然也有一部分人认为这些能力是次要的，但也有一些理由认为这些能力是次要的，但并不是所有的理由都是正确的，也没有理由认为一个非常大的语言特定的模型应该在这里开发出强大的能力(虽然也有一些人认为这些能力是次要的)，但很少有人会认为一个非常大的语言专用模型应该在这里开发出强大的能力(虽然也有很多人认为这些能力是次要的，但也有一些人认为这些能力是次要的，但是没有几个理由认为一个非常大的语言特定的模型应该在这里开发出强大的能力。

我最好的猜测是，推动者将任务的要素分解为“知道如何做”和“知道我们现在正在做”。文本训练教你如何做(真正的)默蒂克，几个简短的提示告诉你“现在我们正在做(真正的)默蒂克，而不是你知道怎么做的其他事情。”

但是，如果你想探究这一点，阿瑞斯·米蒂克绝对是个糟糕的选择！计算者在这里使用K=50，这意味着他们给模型提供了50个简单数学问题的正确示例，让它“解决任务”。但任何能完成这项任务的人都不需要50个这样的例子。

示例#50提供了哪些示例#49所不知道的信息？我们在这里干嘛呢？对于98%的时间看起来像附加设备的恶意系统？“除‘52’外，广告实际上是指‘37’，但其他一切都是一样的吗？”我们有必要排除这一点吗？你应该(而且模型必须有)在真正的附加之前有很强的竞争力吗？

我不知道他们在这里想做什么，我想他们可能也不知道。

https://www.greaterwrong.com/posts/ZHrpjDc3CepSeeBuE/gpt-3-a-disappointing-paper

为什么Apple Mail随机成为最受欢迎的应用程序

2020-5-30 19:53

木星将一颗彗星困在一个奇怪的轨道上

2020-5-30 12:31

一个新的TikTok克隆通过付费用户观看视频登上了应用商店的榜首

2020-5-30 11:0

“独立”不再是“自给自足”的意思

2020-5-30 7:9

tags users