OpenAI引入了两个新的GPT-3模型：CLIP（可将图像从任意文本分类为类别）和DALL·E（可从文本生成图像）

2021-01-06 21:20:13

借助GPT-3，OpenAI表明可以将单个深度学习模型训练为以多种方式使用语言，只需将其投入大量文本即可。然后表明，通过将文本交换为像素，可以使用相同的方法来训练AI以完成半成品图像。 GPT-3模仿人类使用单词的方式；图片GPT-3预测了我们所看到的。

现在，OpenAI将这些想法整合在一起，并建立了两个新模型，分别称为DALL·E和CLIP，它们将语言和图像结合在一起，从而使AI能够更好地理解单词及其所指含义。

“我们生活在视觉世界中，” OpenAI首席科学家Ilya Sutskever说。 “从长远来看，您将拥有能够同时理解文本和图像的模型。人工智能将能够更好地理解语言，因为它可以看到单词和句子的含义。”

对于GPT-3的所有功能，它的输出都可能与现实脱节，仿佛它不知道在说什么。那是因为事实并非如此。通过在图像中放置文本，OpenAI和其他地方的研究人员正在尝试使语言模型更好地掌握人类用来理解事物的日常概念。

DALL·E和CLIP从不同方向解决此问题。乍一看，CLIP（对比语言-图像预训练）是另一种图像识别系统。除了像大多数现有模型一样，它学会的不是从策划的数据集中的带标签示例中识别图像，而是从互联网上获取的图像及其标题识别图像。它通过描述而不是诸如“猫”或“香蕉”之类的单字标签来了解图像中的内容。

通过对CLIP进行培训，可以预测来自32,768个随机选择的字幕对于给定图像是正确的。为了解决这个问题，CLIP学习将各种各样的对象与其名称和描述它们的词相链接。然后，它可以识别训练集中以外的图像中的对象。大多数图像识别系统受过训练，可以识别某些类型的物体，例如监视视频中的人脸或卫星图像中的建筑物。像GPT-3一样，CLIP可以在没有额外培训的情况下跨任务进行概括。与其他最新的图像识别模型相比，它也不太可能被对抗性示例误入歧途，这些对抗性示例已经以巧妙的方式进行了更改，即使人们可能没有注意到差异，但这些更改通常会混淆算法。

DALL·E（我猜是WALL·E / Dali双关语）没有识别图像，而是绘制图像。该模型是GPT-3的较小版本，它也已经接受了来自互联网的文本图像对的培训。给定简短的自然语言标题，例如“日出时坐在田野上的水豚画”或“核桃的横截面图”，DALL·E会生成许多与其匹配的图像：数十个水豚橙色和黄色背景前的所有形状和大小；一排又一排的核桃（尽管不是全部都是横截面）。

结果令人吃惊，尽管仍然好坏参半。标题“带有蓝色草莓图像的彩色玻璃窗”产生许多正确的结果，但也有一些带有蓝色窗户和红色草莓的结果。其他的则没有任何东西像窗户或草莓。 OpenAI团队在博客中展示的结果并非手工挑选，而是由CLIP排名，CLIP为每个字幕选择了32个DALL·E图像，认为它与描述最匹配。

“从文本到图像是一个研究挑战，已经存在了一段时间，”位于亚特兰大乔治亚理工学院从事自然语言处理和计算创造力的马克·里德尔说。 “但这是一系列令人印象深刻的例子。”

为了测试DALL·E处理新概念的能力，研究人员给了它标题以描述他们以前从未见过的对象的标题，例如“鳄梨扶手椅”和“图图兔脚上萝卜萝卜的插图”。狗。”在这两种情况下，AI生成的图像都以合理的方式结合了这些概念。

扶手椅尤其看起来都像椅子和鳄梨。 “令我最惊讶的是，该模型可以采用两个不相关的概念并将它们放在一起，从而产生某种功能，”参与DALL·E工作的Aditya Ramesh说。这可能是因为一半的鳄梨看起来有点像高背扶手椅，而坑是垫子。对于其他字幕，例如“竖琴制成的蜗牛”，效果不佳，其图像将蜗牛和竖琴以奇怪的方式结合在一起。

DALL·E是Riedl想象中的一种系统，该系统是他在2014年提出的一个思想实验Lovelace 2.0测试。该测试旨在取代Turing测试作为衡量人工智能的基准。它假定智能的标志之一就是能够以创造性的方式融合概念。里德尔建议，比起让聊天机器人在对话中欺骗人类，让计算机绘制一个拿着企鹅的男人的图片比对聊天机器人欺骗人类更好。

Riedl说：“真正的测试是看到AI可以被推到其舒适区域之外多远。”

“该模型从异想天开的文本中生成合成图像的能力对我来说非常有趣，”艾伦人工智能研究所（AI2）的阿尼·肯布维（Ani Kembhavi）说，他还开发了一种从文本生成图像的系统。 “结果似乎符合所需的语义，我认为这令人印象深刻。”他还给Kembhavi的同事Jaemin Cho留下了深刻的印象：“现有的文本到图像生成器还没有显示出绘制多个对象或DALL·E的空间推理能力的这种控制水平，”他说。

但是DALL·E已经显示出应变的迹象。在标题中包含太多对象可以扩展其跟踪绘制内容的能力。用一个意思相同的单词改写标题有时会产生不同的结果。还有迹象表明，DALL·E正在模仿它在网上遇到的图像，而不是生成新颖的图像。里德尔说：“我对这个萝卜的例子有些怀疑，从样式上暗示它可能已经记住了互联网上的一些艺术品。” 他指出，快速搜索会显示许多拟人化的萝卜的卡通图像。他说：“ DALL·E所基于的GPT-3以记忆而出名。” 尽管如此，大多数AI研究人员都认为，在视觉理解中扎根语言是使AI变得更聪明的好方法。 Sutskever说：“未来将由这样的系统组成。” “而且这两种模型都是朝着该系统迈出的一步。”

https://www.technologyreview.com/2021/01/05/1015754/avocado-armchair-future-ai-openai-deep-learning-nlp-gpt3-computer-vision-common-sense/

tags users