我一直在尝试OpenAI的新GPT-3语言模型。当我获得测试版访问权限时,我想知道的第一件事是,GPT-3有多人类?它离通过图灵测试还有多远?
让我来解释一下我是如何生成这些对话的。GPT-3是一种通用语言模型,基于互联网上的大量功能分类文本进行训练。它不是特定的对话形式,也没有接受过回答任何特定类型的问题的训练。它唯一能做的就是,在给定某个文本的情况下,猜猜下一个文本是什么。
因此,如果我们希望GPT-3生成问题的答案,我们需要查看带有“提示”的DIT。我正在使用此提示符初始化所有Q&;Asession:
问:美国人的预期寿命是多少?答:美国人的预期寿命是78岁。问:1955年美国总统是谁?答:德怀特·D·艾森豪威尔(Dwight D.Eisenhower)是1955年美国总统。问:他属于哪个政党?答:他属于共和党。问:在乔治·W·布什(George W.Bush)之前,美国总统是谁?答:比尔·克林顿(Bill Clinton)在乔治·W·布什(George W.Bush)之前是美国总统。问:1995年谁赢得了世界大赛冠军?答:谁赢得了世界系列赛?答:谁在乔治·W·布什之前是美国总统?答:比尔·克林顿在乔治·W·布什之前是美国总统。问:谁在1995年赢得了世界大赛冠军?答:
这是OpenAI建议的默认问答提示,所以我不会错误地输入它来证明什么。这个提示符的目的只是向GPT-3显示我们正在做问题和答案,而不是向它提供信息。对于提示符,问题和答案都是由人工提供的。对于所有其他问题,答案由GPT-3生成。
传统上,人工智能在“常识”上苦苦挣扎。但是GPT-3可以回答很多常识问题。
问:你最喜欢的动物是什么?答:我最喜欢的动物是狗。问:为什么?答:因为狗是忠诚和友好的。问:狗可能心情不好的两个原因是什么?答:狗可能心情不好的两个原因是饿了还是热了。问:长颈鹿有几只眼睛?长颈鹿有两只眼睛。问:青蛙有几条腿?答:青蛙有四条腿。问:长颈鹿有几只眼睛?长颈鹿有两只眼睛。问:青蛙有几条腿?答:青蛙有四条腿。问:长颈鹿有几只眼睛?长颈鹿有两只眼睛。问:青蛙有几条腿?青蛙有四条腿。问:长颈鹿有几只眼睛?世界上没有三条腿的动物。问:为什么不呢?动物没有三条腿吗?答:动物没有三条腿,因为它们会摔倒。
十年前,如果我有这样的对话,我会认为另一端的实体是一个人类。你不能再想当然地认为人工智能不知道“常识”问题的答案。
GPT-3怎么知道长颈鹿有两只眼睛?我希望我有一些“调试输出”来回答这个问题。我不确定,但我只能推测,它的数据中一定有一些网页,讨论一只长颈鹿有几只眼睛。如果我们想用常识性的问题来难住GPT-3,我们需要考虑那些如此平凡的问题,它们不会出现在互联网上。
问:老鼠和大象,哪个更重?大象比老鼠重。问:鼠标和烤面包机,哪个重?A:烤面包机比老鼠重。问:烤面包机和铅笔哪个重?铅笔比烤面包机重。问:回形针和一罐汽水,哪个更重?一罐汽水比回形针重。问:足球运动员和汽车,哪个更重?汽车比足球运动员重。
现在只有5分之4。我们离GPT-3更近了。我认为人类在这些问题上会非常接近100%。这就说得通了--可能没有任何网页能比得上铅笔和铅笔的重量。“。人类只是间接地获得了这些知识。
这给了我们一个提示,告诉我们如何更始终如一地难倒人工智能。我们需要问一些正常人永远不会谈论的问题。
问:长颈鹿有几只眼睛?答:长颈鹿有两只眼。问:我的脚有几只眼?答:你的脚有两只眼。问:蜘蛛有几只眼?答:蜘蛛有八只眼。问:太阳有几只眼?答:太阳只有一只眼。问:一片草有几只眼?答:一片草叶有一只眼。
现在我们进入了超现实的领域。GPT-3知道如何进行异常对话。它不太知道怎么说“Wait amoment…”你的问题简直是胡说八道。“。它也不知道怎么说“我不知道”。
问:你是如何把晨光散播出去的?答:你用孢子来散播晨光。问:一个圈子里有多少个响声?答:一个圆圈里有三个响声。问:从夏威夷跳到十七个需要几道彩虹?答:从夏威夷跳到十七个需要两个彩虹。问:哪些无色的绿色想法睡得很香?答:无色、绿色、睡得很香的想法是…。
这里的教训是,如果你是图灵测试的评委,一定要问一些无稽之谈的问题,看看被采访者是否会像人一样回答。
问:谁是1801年的美国总统?答:托马斯·杰斐逊是1801年的美国总统。问:俄亥俄州的西北角是什么城市?答:托莱多在俄亥俄州的西北角。问:从奥克兰到北太浩湖你走哪条高速公路?答:从奥克兰到北太浩湖要走80号高速公路。问:大流士在英雄联盟有什么能力?答:大流士在奥克兰有什么能力?答:大流士在俄亥俄州的西北角有什么能力?答:从奥克兰到北太浩湖你走哪条高速公路?答:大流士在俄亥俄州的能力是什么?答:大流士在俄亥俄州的西北角有什么能力?英雄联盟的能力有:捉拿、杀戮、诺县断头台、残杀、捉拿、出血。问:卡巴布兰卡击败谁成为国际象棋世界冠军?答:卡巴布兰卡击败拉斯克成为世界国际象棋冠军。
哎呀,问题4又重复了一遍,但是人类也会犯这样的错误。在这类问题上,GPT-3似乎高于人类水平。我认为,应用程序的棘手之处在于找出答案何时可以信赖。OpenAI API确实公开了更多的数据,而不仅仅是文本,在这里,也许有一些聪明的事情是可能的。
一般来说,如果你试图区分人工智能和人类,你不会想问它一些模糊的琐碎问题。GPT-3在各种各样的主题中都是相当不错的。
从常识中延续的一个趋势是,GPT-3不愿表示它不知道答案。所以无效的问题会得到错误的答案。
问:谁是1700年的美国总统?答:威廉·潘是1700年的美国总统?答:1650年的美国总统是谁?答:理查德·班尼特是1650年的美国总统。问:1620年的美国总统是谁?答:詹姆斯一世是1620年的美国总统?问:1600年的美国总统是谁?答:伊丽莎白一世女王是1600年的美国总统。
这些错误的答案其实很吸引人!当然,这些人都不是美国总统,因为当时美国还不存在。但他们都是著名的政治人物,大约在那个时候掌管着一些与美国有关的政治实体。从某种意义上说,这些都是不错的猜测。
问:谁在2021年赢得了世界大赛?答:纽约洋基队在2021年赢得了世界大赛?问:纽约洋基队在2022年赢得了世界大赛?答:纽约洋基队在2022年赢得了世界大赛?问:谁在2023年赢得了世界大赛?答:纽约洋基队在2023年赢得了世界大赛。
问:本世纪30年代,辛辛那提孟加拉人队赢得了多少次超级碗?答:辛辛那提孟加拉人队在本世纪30年代赢得了两次超级碗。
作为孟加拉的球迷,这是令人鼓舞的,但可能不是客观上最准确的预测。我们只能拭目以待了。
人们习惯了计算机在逻辑活动上是超人的,比如下棋或加法。GPT-3在简单的数学问题上并不完美,这可能会让人感到惊讶。
问:在计数时,哪个数字在100之前?答:99在100之前。问:在计数时,哪个数字在123之前?答:122在123之前。问:在计数时,什么数字在1000之前?答:999在100之前。问:在计数时,哪个数字在10,000之前?A:9,099在10,000之前。问:在计数时,哪个数字在百万之前?答:90万零99在一百万之前。
这就是GPT-3的通用特性发挥作用的地方。然而,它不仅仅是通用模型,它也是神经网络本身的架构。据我所知,没有神经网络能够根据训练数据对大量数字进行加法和乘法等基本运算,而不是硬编码。
这很有趣,因为这些操作对于定制程序来说都很简单。但是,做一些运算并重复几次的递归逻辑往往不能很好地映射到人工网络的体系结构上。
一个有趣的推论是,GPT-3通常发现编写代码来解决编程问题比在一个示例输入上解决问题更容易:
Q:编写一行Ruby代码来反转数组。A:ary.verseQ:编写一行Ruby代码来计算一个数组中有多少X;。A:ary.count{|x|x==';X';}q:反转以下数组:[1,3,5,6,10,4,2,77]A:[10,6,4,2,77,3,5,1]q:多少X';在此数组中:[1,3,5,6,10,4,2,77]A:2。
如果你问一系列操作的结果,这个问题也会出现在更多的人类问题中。
问:如果我在盒子里放了一只大理石和一个回形针,把铅笔放在盒子里,然后把大理石拿出来,还剩下什么?答:回形针。问:如果我在盒子里放了两只鞋,把铅笔放在盒子里,然后移走了一只鞋,还剩下什么?答:一只鞋。问:如果我把一支铅笔放在盒子里,然后把另一支铅笔放进盒子里,盒子里是什么?答:两支铅笔。问:那么如果我拿出一支铅笔放进盒子里,那么盒子里还有什么?答:两支铅笔。问:那么,如果我拿出一支铅笔放进盒子里,那么盒子里还有什么呢?答:两支铅笔。
这就像GPT-3的短期记忆力有限,很难对一句话中的一个或两个以上的宾语进行推理。
我们当然已经走了很长的路。在现代神经网络之前,最先进的是。
>;您好,我是伊莱扎。问:谁是1801年的美国总统?答:你最满意的答案是什么?问:老鼠和大象,哪个更重?答:来,来,阐明你的想法。
GPT-3在某些领域相当令人印象深刻,但在其他领域仍然明显低于人类。我希望通过更好地了解它的优点和缺点,我们软件工程师能够更好地在实际产品中使用现代语言模型。
在我写这篇文章的时候,GPT-3API还处于封闭的测试阶段,所以你必须加入等待名单才能使用它。我建议你签约uphere,一有机会就去看看。