我的人工智能时间表加快了

2020-08-26 12:15:32

对于这篇文章,我将把人工智能(AGI)带到一个几乎所有(95%+)经济价值工作都能与人类匹敌或超过人类的人工智能系统。我更喜欢这个定义,因为它关注的是什么导致了最大的社会变革,而不是我们如何做到这一点。

我保持90%的额度不变,但把其他的都改得更快。现在,如果你想找一个论据来解释为什么我选择了这些特定的年份,为什么我改变了10年,而不是5年或15年,你会失望的。两者都是由直觉驱动的,重要的是为什么我的部分想法改变了--你可以根据这一点选择你自己的时间表调整。

如果我从来没有对机器学习(ML)的研究感到惊讶,那将是令人难以置信的奇怪。从历史上看,很难预测一个研究领域会走上什么轨道,如果我从来没有感到惊讶,我会把这视为个人的失败,因为我没有考虑到足够大的想法。

同时,当我回想起过去的5年时,我相信我的自信比平均水平更高。并不是所有的事情都朝着积极的方向发展,非监督学习的进展比我预期的要快得多。深度强化学习变得比我预想的要快一点。迁移学习比预期的要慢。总而言之,我决定我应该扩大结果的分布,所以现在我将10%-90%的时间间隔分配给35年,而不是25年。

我还注意到,我对2015年的预测将10%至50%放在5年内,50%至90%放在20年范围内。AGI是一个长尾事件,确实有可能永远不会可行,但5比20的分裂是荒谬的歪曲,我正在相应地调整。

现在我们到了最困难的部分。为什么我选择把10%和50%这两条线更靠近现在呢?

三年前,我和一个人交谈,他提到AGI没有火警警报。我告诉他们我知道埃利泽·尤德科夫斯基写过另一篇关于AGI的帖子,我看过在Facebook上的朋友们分享,但我没有时间阅读。他们总结说,“AGI什么时候发生永远不会很明显。即使在它发生的几年前,人们也可能会认为AGI很遥远。等到大家都知道人工智能安全是世界上最重要的问题时,那就太晚了。“。

我的反应是,“好的,这和我从我的Facebook时间线上得到的一致。我已经知道费米预测核连锁反应的故事很可能是不可能的,就在他参与曼哈顿计划的几年前。最近,我们让雷米·库洛姆(Rémi Coulom)说,超人围棋还有大约10年的时间,比第一次有迹象表明它可能发生的时间早了一年,比AlphaGo正式投入使用的时间早了两年。我也已经知道了人工智能安全的常识。“我觉得不值得花时间读这本书。

(如果你还没有听过常识的争论,这里是一个快速的版本:大多数人可能会认为人工智能安全是值得的,即使没有人公开这样说,因为每个人都可能害怕,如果他们主张采取激烈的行动,其他所有人都会说他们疯了。即使每个人都同意,这种情况也有可能发生,因为他们不知道每个人都同意。)。

几年后,我无聊地读了这篇文章,现在我需要向我所有的Facebook朋友追溯抱怨,他们只分享历史事件和常识论点。虽然这篇文章的总结是正确的,但我发现有用的想法都在那个总结之外。我信任你,过滤泡泡!你怎么能这样让我失望呢?

火灾警报帖子中的一部分提出了为什么人们声称AGI是不可能的假设。其中一个假设是,研究人员过多地关注让某些东西与他们当前的工具一起工作的困难,将这种困难推断到未来,并得出结论,我们永远无法创建AGI,因为可用的工具不够好。这是一个糟糕的论点,因为你的推断需要考虑到研究工具也随着时间的推移而不断改进。

“工具”的意思有点模糊。一个明显的例子是我们的编码库,人们过去常常用Caffe、MATLAB和Theano编写神经网络。现在主要是TensorFlow和PyTorch。一个不太明显的例子是计算机视觉的特征工程。上一次有人谈论计算机视觉的SIFT功能是什么时候?很久以前,它们已经过时了。对于计算机视觉研究者来说,SIFT特征是旧的工具,卷积神经网络是新的工具,而计算机视觉则是被更好的工具增压的应用程序,但是特征工程并没有消失,它只是卷积神经网络的结构调整,而对于计算机视觉研究者来说,SIFT特征是旧的工具,卷积神经网络是新的工具,而计算机视觉是已经被更好的工具增压的应用。

而对我来说,我不是计算机视觉专家。我认为ML代表控制是一个更有趣的问题。然而,你必须在基于图像的环境中进行计算机视觉控制,如果你想处理现实世界,基于图像的输入是可行的。所以对我来说,计算机视觉是工具,机器人是应用,计算机视觉的进步推动了许多有希望的机器人学习成果。

我是研究工具的大力倡导者。我认为平均而言,人们低估了他们的影响。因此,在阅读了人们不能正确预测工具改进的假设后,我想了想,认为我也没有正确地解释这一假设。那应该减掉几年。

在ML更经验性的方面,进步的明显组成部分是您的想法和计算预算,但也有一些不太明显的组成部分,如您的编码和调试技能,以及您利用计算的能力。如果您的代码没有使用所有可用的处理器,那么每台机器有多少处理器都无关紧要。有数量惊人的ML应用程序的主要增值来自于更好的数据管理和数据汇总,因为这些工具将决策时间从其他事情上解放出来。

一般来说,每个人的研究工具在某种程度上都是不足的。研究是关于做一些新的东西,这自然会导致发现新的问题,而且极不可能有人已经为三个月前还不存在的问题制造了完美的工具。所以,你目前的研究工具总会让人感觉很陈旧,你不应该用它来争论任何关于时间表的事情。

研究堆栈有很多部分,整个堆栈中不断有改进,而且这些改进中的大多数都有倍增的好处。乘性因素可能非常强大。一个简单的例子是,要获得10倍的好结果,你可以用范式转换把一件事情做得更好10倍,或者你可以把10件不同的事情做得更好1.26倍,它们结合起来就是10倍的整体改进。后者同样具有变革性,但可以容易得多,特别是如果你让10名拥有不同技能的专家为了一个共同的目标而工作。这就是公司是如何成为一种东西的。

从历史上看,无人监督的学习一直处于这种奇怪的境地,显然这是正确的学习方式,如果你想让某件事尽快奏效,那也完全是浪费时间。

一方面,人类学到的大多数东西都没有标签,所以ML系统也不需要标签。另一方面,2015年的深度学习热潮主要是由大规模标签数据集上的监督学习推动的。理查德·索彻当时发表了一条引人注目的推文:

与其花一个月的时间来解决一个无监督的机器学习问题,不如给一些数据加一周的标签,然后训练一个分类器。

-理查德·索彻(@RichardSocher)2017年3月10日。

我不会说无监督学习一直都是无用的。2010年,人们普遍认为深度网络在开始有监督的学习之前应该经过一个无监督的预训练步骤。参见(Erhan等人,JMLR 2010)。2015年,像GloVe和word2vec这样的自我监督词向量是自动学习单词之间有趣的关系的。作为在2015年左右创立ML的人,这些无监督的成功感觉像是规则的例外。大多数其他应用程序都依赖于标签。预先训练的ImageNet功能是最接近于一般行为的东西,这些功能是通过监督学习从头开始学习的。

我早就同意,一旦我们找到了如何做到这一点,无监督学习就是未来,也是做事情的正确方式。但是,我们已经花了很长时间来尝试这样做。这让我对过去几个月的半监督和非监督学习论文印象深刻。(He等人,CVPR 2020)的时刻对比相当不错,(Chen等人,ICML 2020)的SimCLR在这方面有所改进,并引导你自己的潜力。然后是GPT-3,但我稍后会讲到这一点。

当我仔细考虑是什么让ML变得困难时,趋势线指向更大的模型和更大的标签数据集。他们现在仍然指向那个方向。我的结论是,未来ML的进展将受到标签要求的瓶颈。定义一个10倍大的模型是很容易的。训练一个10倍大的模型是困难的,但它不需要10倍的人来做这件事。得到10倍多的标签。是的,数据标签工具正在变得越来越好,Amazon Mechanical Turk非常流行,甚至还有一些初创企业的使命是提供快速的数据标签服务。但标签从根本上说是一个关于人类偏好的问题,这使得人们很难逃避人力。

强化学习中的奖励函数也有类似的问题。原则上,在您定义成功是什么样子之后,模型就会找出解决方案。在实践中,你需要一个人来检查模型没有破解奖励,或者你的奖励功能是由人类评分员隐式定义的,这就变成了同样的标签问题。

大的带标签的数据集并不是凭空出现的。它们需要经过深思熟虑、持续的努力才能产生。ImageNet赢得CVPR 2019年的时间奖测试是有原因的-那篇论文的作者出去做了这项工作。如果ML需要更大的标签数据集来推动性能,并且模型持续以数量级增长,那么你就达到了取得进展所需的人力监督量将是疯狂的地步。

(这甚至没有涉及到标签不完美的问题。我们发现,在流行的基准测试中使用的许多带标签的数据集都包含很多偏差。这并不令人惊讶,但现在它更接近于常识,用自由放任的标签系统构建一个大型数据集将不再可行。)。

好吧。好吧,如果10倍的标签是个问题,有没有办法绕过这个问题?一种方法是,如果你不需要10倍的标签来训练一个10倍大的模型。关于这一点的信息是喜忧参半的。一篇缩放定律论文(Hestness等人,2017年)建议模型大小随数据集大小近线性增长。

我们期望符合数据集的模型参数的数量应该遵循\(s(M)\proto\alpha m^{\beta_p}\),其中\(s(M)\)是拟合大小为\(M)的训练集所需的模型大小。

不同的问题设置具有不同的系数。图像分类遵循幂定律(β_p=0.573),语言建模遵循幂定律(β_p约为0.72)。

相反,这意味着数据集大小应该随着模型大小呈超线性增长-10倍大的图像分类模型应该使用\(10^{1/0.573}=55.6x)倍的数据!那是个可怕的消息!

但是,(Kaplan和Candlish,2020)的论文提出了相反的关系-数据集的大小应该随着模型的大小而近乎线性地增长。他们只检查语言建模,但在第6.3节中指出

为了保持对过拟合的控制,第4节的结果暗示我们应该将数据集大小缩放为\(D\proposto N^{0.74}\),[其中\(D\)是数据集大小,\(N\)是模型大小]。

与\(D\proto N^{1/0.72}\)的Hestness结果相比,这很奇怪。数据集的增长速度应该比模型快还是慢?

这两个数字之间的差异是因为卡普兰结果是在假设固定的计算预算的情况下得出的。他们发现的一个关键结果是,在短时间内训练一个非常大的模型比训练一个小模型收敛更有效率。同时,据我所知,Hestness结果总是使用训练为收敛的模型。

这有点离题,但是插入数字之后,我们得到模型大小每增加10倍就需要增加4倍到50倍的数据集大小。对于标签需求,4倍的倍数绝对比10倍的倍数要好得多,但它仍然很多。

进入无监督学习。这些方法正在变得越来越好,“标签”的含义正在转向更容易获得的东西。GPT-3训练的是一堆网络爬行数据,虽然需要一些输入处理,但它不需要人在进入模型训练之前验证文本的每一句话。在足够的规模下,看起来你的标签嘈杂和数据混乱是可以接受的。

这里有很大的潜力。如果您有\(N\)个未监督的示例,那么是的,\(N\)个已标记的示例会更好,但请记住,标记是很费力的。您已标记的数据集的大小受到您所能承受的监督的限制,并且您可以用相同的工作量获得更多的未标记数据。

许多大数据炒作是由图表推动的,这些图表显示,数据的生成速度快于摩尔定律。大部分炒作都泡汤了,因为不知情的执行人员不明白,拥有数据并不等同于拥有对机器学习有用的数据。可用数据的真实数量要少得多。研究界哄堂大笑,但如果无监督学习变得更好,甚至垃圾数据变得微不足道,笑话就会落到我们头上。

无监督学习已经足够好了吗?绝对不是那么回事。百分之百不是。比我预想的要近。我期待看到更多的论文使用与其目标任务无关的数据源,以及更多的“图像网络时刻”(ImageNet Moments),即应用程序是站在别人的GPU时间的肩膀上构建的。

在人们开始玩弄GPT-3之前,我已经更新了我的时间表估计,但GPT-3是促使我写这篇博客文章解释原因的原因。

我们在GPT-3中看到的是,语言是一种令人难以置信的灵活的输入空间。人们知道这一点已经有一段时间了。我认识一位NLP教授,他说语言理解是一项人工智能完成的任务,因为一台完全理解并回答所有问题的假想机器可能和人一样。人们还认为压缩是智能的代言人。正如赫特奖网站上所说,要压缩数据,你必须识别数据中的模式,如果你认为模式识别是智能的关键组成部分,那么更好的压缩器应该更智能。

需要澄清的是:这些都不是普遍的NLP观点!关于语言理解到底意味着什么,存在着激烈的争论。我提到它们是因为这些观点是由严肃的人持有的,而GPT-3成绩支持它们。

GPT-3有很多功能,但它的核心是一个使用大量训练时间将非常大的文本语料库压缩成较小的Transformer权重集的系统。最终结果展示了惊人的知识广度,可以将其缩小为许多不同的任务,只要您能够将该任务转换为文本提示来播种模型的输出。这是有缺陷的,但技术演示的广度有点荒谬。同样值得注意的是,大多数这种行为都是因为擅长预测下一个文本标记而产生的。

这一成功是前一节(更好的无监督学习)的具体示例,也是第一节(更好的工具)的标志。虽然故事生成中有很多有趣的东西,但我对代码生成演示最感兴趣。它们看起来像是“按我的意思做”编程接口的早期迹象。

这太让人兴奋了。使用GPT-3,我构建了一个布局生成器,您只需在其中描述您想要的任何布局,它就会为您生成JSX代码。W H A T pic.twitter.com/w8JkrZO4lk。

-谢里夫·沙米姆(@sharifshameem)2020年7月13日。

如果现有的技术演示可以改进5倍,那么如果它们变成了具体编程的关键生产力助推器,我也不会感到惊讶。系统设计、代码验证和调试目前可能只会停留在人类身上,但很多编程都只是在代码行内涂抹色彩。就像2000年前的搜索引擎一样,即使是低水平的能力也可能改变游戏规则。AltaVista在1998年的访问量排名第11,当然比Google/Bing/DuckDuckGo现在能做的还要糟糕。

我认为代码生成有用的一种具体方式是ML for ML工作,如神经体系结构搜索和黑盒超参数优化。围绕AGI的一个常见争论是智能爆炸,这类黑盒方法被认为是一种潜在的智能爆炸机制,但它们长期以来都有一个关键的限制:即使你假设有无限的计算机,也必须有人实现代码,提供从实验参数到最终性能的干净API。可探索的搜索空间从根本上受到人类所认为的搜索空间大小的限制。如果你不关注搜索空间的一部分,机器学习就不能探索它。

机器人学习中的领域随机化也有同样的问题。这是我对OpenAI魔方结果的主要批评。这篇论文读起来像是一年来发现的魔方随机化搜索空间,而不是任何可推广的机器人学习课程。最终的结果是基于一个从大量随机模拟中学习概括的模型,但该模型之所以能做到这一点,是因为人们花费了大量的精力来决定哪些随机化是值得实施的。

现在想象一下,每当您在模拟器中发现一个新的未知未知时,您都可以非常迅速地实现代码更改,从而将其添加到您的域随机搜索空间中。嗯,那些方法看起来肯定更有前途!

GPT-3当然有问题。它有一个固定的视窗。它没有办法从预测文本的下一个字符中学到任何它没有学到的东西。要确定它知道什么,需要学习如何提示GPT-3给出你想要的输出,并不是所有简单的提示都能起作用。最后,它没有意图或代理的概念。这是一个下一个词的预言器。这就是问题所在,我猜试图将培训损失改为增加意向或代理将会比听起来困难得多。(对我来说,这听起来已经很难了!永远不要低估正在进行的ML研究项目的惯性。)。

但是,再一次,这让我想起了很多早期的搜索引擎。小时候,我浪费了很多方法来组织我的搜索查询,以使好的结果更频繁地出现。避免短词,把重要的关键词放在前面,不要输入完整的句子。我们处理这件事是因为收获是值得的。GPT-3可能是类似的。

我现在预计Compute将发挥更大的作用,并看到模型增长的空间。

出于我不想在这篇文章中涉及的原因,我不喜欢这样的争论:人们编造一个对人脑的计算估计,取一条摩尔定律曲线,将这两条曲线外推,然后宣布当两条线相交时,AGI就会发生。我认为他们把讨论过于简单化了。

然而,不可否认,计算机在ML进步中发挥了作用。但是,有多少人工智能能力是由更好的硬件驱动的,这让我们可以扩展现有的模型,有多少是由新的ML想法驱动的呢?这是一个复杂的问题,特别是因为这两者并不是独立的。新的想法可以更好地利用硬件,更多的硬件可以让您尝试更多的想法。我在2015年对这种可怕的简化的猜测是,AGI进步的50%将来自计算机,以及

.