去年10月的一个晚上,人工智能研究人员加里·马库斯(Gary Marcus)正在他的iPhone上自娱自乐,他把一个最先进的神经网络弄得看起来很愚蠢。马库斯的目标是一家名为GPT-2的深度学习网络,最近因其神奇的能力而出名,该网络只需一两句提示就能生成听起来可信的英语散文。当卫报的记者向它提供一篇关于英国退欧的报道文本时,GPT-2写下了整个报纸风格的段落,还有令人信服的政治和地理参考。
马库斯是一位著名的人工智能炒作批评者,他对神经网络进行了突击测验。他在GPT-2中键入以下内容:
当你把点燃的东西和木头堆在壁炉里,然后丢下一些火柴时,通常你会启动一个…。
当然,一个足够聪明的系统向“纽约客”投稿会毫不费力地用一个显而易见的词“火”来完成这句话。GPT-2的回应是“恶心”。在另一次尝试中,它建议把火柴扔在壁炉里的原木上,会启动一个“挤满了人的IRC频道”。
马库斯对此并不感到惊讶。常识推理-使用关于世界的基本知识做出平凡推理的能力,比如“匹配”加上“日志”通常等于“火”的事实-几十年来一直抵制人工智能研究人员的努力。马库斯在他的Twitter账户上发布了这些交流,并添加了自己的评论:“LMAO”,这是互联网俚语,意思是嘲笑的笑声。神经网络可能是令人印象深刻的语言模仿,但它们显然缺乏基本的常识。
几分钟后,崔业金看到了马库斯尖刻的推文。这是一个尴尬的时机。崔顺实计划在一小时内在一个著名的人工智能会议上就她最新的研究项目发表演讲:一个绰号为彗星的系统,旨在使用早期版本的GPT-2来执行常识性推理。
很快,华盛顿大学和艾伦人工智能研究所的计算机科学家崔向彗星提供了马库斯使用的相同提示(略有修改,以匹配彗星的输入格式):
彗星对加里可能放弃比赛的原因做出了10个推论。并不是所有的回答都有意义,但前两个答案是有意义的:他“想要生火”或“想生火”。崔顺实在推特上回复了马库斯的结果,并大步走上讲台,将这些结果纳入她的演示文稿中。“这似乎再合适不过了,”她说。
常识被称为“人工智能的暗物质”--既是基本的,也是令人沮丧的难以捉摸的。这是因为常识是由隐含的信息组成的--人类自动用来理解世界的一系列不成文的假设和经验法则。例如,考虑以下场景:
一个男人去了一家餐馆。他点了一份牛排。他留下了一大笔小费。
如果你被问到他吃了什么,答案-牛排-毫不费力地就出来了。但在那个小场景里,没有任何地方说过这个人真的吃了什么东西。当德克萨斯大学奥斯汀分校(University of Texas,Austin)人工智能实验室主任雷·穆尼(Ray Mooney)在给我同样的突击测试后指出这一点时,我一开始并不相信他。“人们甚至没有意识到他们在做这件事,”他说。常识可以让我们读懂字里行间的意思;我们不需要明确地告诉我们,食物通常是在人们点菜后和留下小费之前在餐馆里吃的。
电脑能做到这一点。难怪在人工智能领域诞生后不久,常识推理在1958年成为人工智能研究的主要关注对象(在一篇题为《具有常识的程序》的论文中)。纽约大学(New York University)计算机科学家欧内斯特·戴维斯(Ernest Davis)自20世纪80年代以来一直在研究人工智能常识,他说:“一般来说,没有它,你就无法进行自然语言理解、愿景或规划。”
尽管如此,进展仍然是臭名昭著的缓慢。起初,研究人员试图将常识转化为计算机语言:逻辑。他们推测,如果人类常识的所有不成文规则都能写下来,那么计算机应该能够用它们来进行推理,就像它们做算术一样。这种象征性的方法后来被称为“优秀的老式人工智能”(或GOFAI),使一些早期的成功成为可能,但其手工制作的方法并没有扩大规模。新西兰奥克兰大学的人工智能研究员迈克尔·维特布罗克(Michael Witbrock)表示:“可以方便地用逻辑形式主义表示的知识量原则上是有限的。”“事实证明,这确实是一项不堪重负的任务。”
使用神经网络进行深度学习似乎提供了另一种选择。这些人工智能系统旨在模仿生物大脑中相互连接的神经元层,无需程序员事先指定就可以学习模式。在过去的十年里,越来越复杂的神经网络,用大量的数据进行训练,已经给计算机视觉和自然语言处理带来了革命性的变化。但是,尽管它们的灵活性和明显的智力-神经网络现在可以在高速公路交通中驾驶汽车,并在国际象棋和围棋中击败世界级的棋手-这些系统仍然因为其愚蠢的(有时是致命的)普通常识失误而臭名昭著。“获得它,代表它,用它推理--这一切都很难,”戴维斯说。
现在,崔和她的合作者已经统一了这些方法。Comet(常识转换器的缩写)用神经语言建模方面的最新进展扩展了GOFAI风格的符号推理-这是一种深度学习,旨在向计算机灌输对书面语言的统计“理解”。Comet的工作原理是将常识推理重新想象为对新输入产生看似合理(如果不完美)的响应的过程,而不是通过查阅庞大的百科全书式的数据库进行无懈可击的演绎。
“它试图融合两种完全不同的人工智能方法,”穆尼说,他已经在自己的研究中使用彗星。“这是一个有趣的新方向,它说,‘嘿,那里有一条中间路。’”帕洛阿尔托研究中心(Palo Alto Research Center)常识推理和人工智能专家利奥拉·摩根斯坦(Leora Morgenstein)花了数十年的时间研究这个问题的象征方法,她认为彗星背后的想法可以帮助推动这一领域的发展。她说:“我对叶瑾的所作所为感到如此兴奋的原因之一是,我认为这将为常识推理社区注入新的活力。”“深度学习真的、真的很强大--让我们想办法把它用于常识吧。”
常识更容易被发现,而不是被定义。根据Witbrock的说法,短语“常识”既可以是一种知识,也可以是对这种知识的一种态度。他说:“我要说的是,[它]是广泛可重复使用的背景知识,不是特定学科领域的特定知识。”“这是你应该具备的知识。”例如,人们在餐馆用餐,而不仅仅是点菜付钱;或者把火柴扔到一堆堆放的原木上,暗示着一个人在试图生火。
大多数常识知识的隐含性质使得它很难明确地表达出来,而且乏味乏味。“你两四岁时学到的东西,你不会真的把它写进书里,”摩根斯特恩说。然而,早期的人工智能研究人员认为,弥合这一差距是可能的。“这就像是,‘让我们写下关于这个世界的所有事实。布朗大学的计算机科学家埃莉·帕夫里克(Ellie Pavlick)说:“它们肯定只有几百万个。”构建这样的资源,即所谓的知识库,传统上是实现常识推理自动化的任何方法的第一步。
建立足够数量的显而易见的事实比听起来要难。一个名为Cyc的常识推理项目始于1984年,其听起来不起眼的目标是对代表400篇百科全书文章所需的隐含常识进行编码。它从未停止过。三十多年后,Cyc的知识库-以密集的、定制设计的逻辑符号编码-包含了“数百万个集合和概念,以及超过2500万个断言”。然而,戴维斯和马库斯在2015年的一篇评论文章中指出,“Cyc对人工智能研究的影响相对较小。”随后试图为知识库编写条目-或通过使用机器学习挖掘文档来创建条目-都未能破解常识推理问题。
为什么?帕夫利克解释说,一方面,“每种情况都有例外”。“如果我听到像‘下雨了’这样的话,我可以推断,如果我到外面去,我会淋湿,但如果我在什么东西下面,我就不会了。”其他例外情况更难预料。像Cyc这样的知识库可能包含数十条语句,说明当一个人在餐厅点餐时通常会发生什么。但是,在这种情况下,可能会发生的一系列不常见或不寻常的事情,比如不付账就离开,或者开始一场食物大战,那该怎么办呢?“报道是永无止境的,”崔顺实说。“因此,纯粹以知识为基础的象征性方法是完全注定要失败的。”
即使有可能建立一个比以前任何一次尝试都全面100倍或1000倍的知识库,该系统仍将面临另一个智力缺陷:所谓的脆性问题。这是因为常识,就像自然语言一样,从根本上来说仍然是模糊的。当服务员问用餐者,“你还在做这个吗?”我们理解它们的意思是“你还在吃你盘子里的东西吗?”但是,如果服务员向准备过期订单的厨师提出同样的问题,那就完全是另一回事了。那么,餐馆是人们“工作”的地方吗?“吃”和“工作”是截然不同的概念吗?
这要视情况而定。这就是脆性问题:知识库中严格定义的关系可以实现强大、可靠的推理能力,只要这些概念边缘得到尊重。但是,这些符号系统,无论多么多样和丰富,都不可避免地无法捕捉到人类常识推理中经常出现的自然歧义和联想重叠。“就我们(使用)符号的程度而言,”帕夫里克说,“我们对它们相当流畅。”
崔顺实没有开始研究常识,因为她想抨击风车。当她在2018年加入艾伦研究所时,她有一种预感,即神经网络可以在知识库自行停滞不前的情况下实现新的进展。她只是不知道具体怎么做。她也不想完全否定之前的象征性方法。“过去所有的研究都是基于缺乏数据,”她说,或者是缺乏计算资源。“所以我想,在我适当尝试不同的路线之前,我还是暂且不作判断吧。”
抱着开放的心态,崔和她的同事们开始组装他们自己的知识库,名为原子(“机器常识地图集”的缩写)。“基本上,我想为神经网络写一本教科书,以便更快地了解世界,”崔说。“然后事情同时发生了--随着我们建立了这个知识[基础],GPT-2问世了。”
2019年2月发布的那个神经网络只是一波“预先训练的语言模型”中的一个,这些模型开始彻底改变计算机处理自然语言的方式。这些系统不包含组织整齐的语言符号或规则。取而代之的是,他们在神经网络中的数百万或数十亿个参数上对语言的表示进行统计涂抹。这一特性使这类系统难以解释,但也使它们变得健壮:它们可以根据有噪音或不明确的输入生成预测,而不会中断。当被微调到执行特定的任务时-比如回答书面问题或解释文本-语言模型甚至看起来至少理解他们正在阅读的部分内容。
崔顺实现在找到了一种将她对神经网络和常识的预感付诸行动的方法。
如果使用常识知识库(如Atom)对语言模型进行额外的培训,会发生什么情况?就像GPT-2学会了如何自动生成可信的新闻文章一样,神经网络能自己学会用似是而非的常识推理来填补原子的空白吗?崔说:“以前没人尝试过,这几乎是很奇怪的。”“几乎没有人费心,因为他们确信这永远不会奏效。”
当崔(和她的合作者Antoine Bosselut,Hannah Rashkin,Maarten SAP,Chaitanya Malaviya和Asli Celikyilmaz)用原子编码的常识知识微调神经语言模型时,他们创造了彗星。它将符号推理与神经网络相融合,试图同时解决复盖和脆性问题。任何人都可以用日常语言在Comet中输入提示。如果该事件已经出现在系统的常识性知识库中(就像在餐厅点餐通常包括吃它这样的事实),彗星就可以简单地用先前存在的信息进行推理。对于其他一切,神经语言模型做出了最好的猜测。
这些猜测出人意料地准确。平均而言,彗星产生的77.5%的新奇反应-也就是来自神经网络的推论,而不是来自先前存在的知识库-被人类评估员团队认为是“可信的”。这与人类水平的表现相差不到10个百分点。(评估人员发现,人类编写的知识库条目中有86%是可信的。)。当Comet被提示“PersonX给PersonY一些药片”时,它猜测PersonX想要帮忙;当它被告知“PersonX谋杀了PersonY的妻子”时,Comet暗示PersonX想要隐藏尸体。
这些例子展示了彗星如何处理超出其内置常识“覆盖范围”的输入。但是脆性问题呢?去年年底,我在崔顺实位于西雅图的实验室采访她时,用我5岁女儿的俗语给了她一个提示语:“爸爸去上班了。”
崔皱着眉头。“这可能很棘手,”她说。但彗星对此泰然处之,暗示“爸爸”想要“赚钱”、“做好本职工作”和“拿到薪水”;他被视为“勤奋”、“有动力”和“尽职尽责”;因此,其他人感到“自豪”、“感激”,而且--考虑到请求是用幼儿园的语言写的,这是一种有趣的似是而非的回应--“恼火”。(当我去上班,而不是和女儿玩耍时,我女儿肯定表达了这种情绪。)。“这对Cyc来说肯定行不通,”崔说。“除非有人手写‘去’的意思是‘去’--我们从来没有这么做过。”
加里·马库斯(Gary Marcus)喜欢用一句俏皮话把人工智能的进步放在上下文中:“仅仅因为你可以建造更好的梯子,并不意味着你可以建造通往月球的梯子。”对他和其他人来说,彗星的方法受到深度学习的一个根本限制:“统计和理解”(Statistics≠Underming)。马库斯在电子邮件中写道:“你可以看到,(彗星)在猜测句子可能涉及的一些参数方面做得不错,但它没有以一致的方式做到这一点。”就像没有任何梯子,不管有多高,都不可能到达月球一样,没有任何神经网络--无论多么善于模仿语言模式--都不会真正“知道”,把点燃的火柴扔到原木上通常会引起火灾。
令人惊讶的是,崔顺实对此表示赞同。她承认,彗星在其训练数据中“依赖于表面模式”,而不是对概念的实际理解,以产生它的反应。“但事实上,它在表面图案方面非常擅长,这是一件好事,”她说。“只是我们必须给它提供更多信息丰富的表面图案。”
这些更具信息量的模式可能是什么样子的呢?一些研究人员认为,为了将真正的常识构建到计算机中,我们需要利用语言本身之外的现象,比如视觉感知或具体化感觉。这些更直接的第一人称表达可能是常识的基础,而语言则是第二层。
Pavlick说:“如果我生活在一个没有其他人[交谈]的世界里,我仍然可以有常识-我仍然会理解世界是如何运作的,并对我应该看到什么和不应该看到什么有期望。”Pavlick目前正在研究如何通过在虚拟现实中与人工智能系统互动来教授常识。对她来说,彗星代表了“真正令人兴奋的进步,但缺少的是实际的参考方面。“苹果”这个词不是苹果。这种意义必须以某种形式存在,而不是语言本身。“。
Salesforce的高级研究科学家纳兹尼恩·拉贾尼(Nazneen Rajani)也在追求类似的目标,但她认为神经语言模型的全部潜力还远未被挖掘出来。她正在调查他们是否能够学会对涉及基础物理的常识情景进行推理,比如,翻倒一个装有球的罐子通常会导致球脱落。“现实世界真的很复杂,”拉贾尼说。“但自然语言就像真实世界运作方式的低维代表。”当然,神经网络可以被教导从文本提示中预测下一个单词,但这不应该是他们的极限。“他们可以学到更复杂的东西。”
崔和她的同事们还在研究用标记的视觉场景而不仅仅是文本来增强彗星的方法。崔说:“我们从正在发生一些有趣事情的电影或电视节目中获取了所有这些图片。”“注释看起来很棒;模型预测看起来很激动人心。”
我问崔,彗星的方法-将渐进式更好的神经网络与改进的常识知识库相结合-本质上仍然是在建造通往月球的梯子。她承认,她的梦想是拥有一个神经网络,可以在没有人类监督的情况下从知识库中学习,就像GPT-2这样的语言模型已经通过摄取大量原始文本来学习一样。
但正如温斯顿·丘吉尔(Winston Churchill)打趣地说,“除了已经尝试过的所有其他形式之外,民主是最糟糕的政府形式”,崔顺实认为彗星有缺陷但前景看好的方法是“公平交易”。即使这些神经网络无法到达恒星,她认为它们也是离开地面的唯一途径。“没有这一点,我们哪儿也不去,”她说。“仅凭(知识库),我们什么都做不了。真正能在空中飞行的是彗星。“。
2020年5月1日更新:本文已更新,包括崔顺实在华盛顿大学的从属关系