注意人类大脑及其在ml中的应用

2021-04-18 18:08:38

当我们看到它们时,一些物体抓住了我们的注意力,即使我们不完全寻找它们。这是多么精确的事情发生了?更重要的是,我们如何纳入这种现象来改善计算机视觉模型?在本文中,我将解释在视场景中关注视觉场景中的突出(即明显)物体的过程及其在机器学习中作为AI研究人员(或不仅仅是从神经科学的角度来看)。

视觉感知,显着性和关注是神经科学的积极研究主题数十年。这些研究人员所做的发现和进步帮助AI研究人员了解和模仿人类大脑中的过程。事实上,显着性和关注是AI社区的积极研究主题。结果是从更好的语言理解到自主驾驶的广泛应用程序。但是,在我们能够理解AI的关注角度之前,我们首先必须从神经科学的角度来了解它。

虽然在整个几十年中,关注已经很好地研究,但突出的研究科学家Grace Lindsay将注意力描述为“远离清晰或统一的概念”。 [1]。然而,所有研究人员都达成了一些关注的属性及其对大脑中信息处理的影响。因此,我们可以概括地说,注意力是一种有效利用有限的计算资源的控制过程。该控制过程明显或隐蔽地证明。

在明显的关注中,人们可以看出人们如何通过扫视的视觉感知区域定位fovea(即视力的视网膜的视网膜的区域)(即两次或更多阶段之间的两只眼睛的快速,同时移动如1967年yarbus所解释的相同方向的固定[2]。在隐蔽的注意力中,大脑重量一些信息,而不是移动fovea的其他信息[3]。古典关注理论声称注意力是来自感觉输入控制的单独控制机制[4],[5]。另一方面,热门注意力理论声称这些注意力和感觉输入控制来自相同的过程[6]。

辩论持续(例如[7]),我们可以继续深入探索大脑如何形式注意力。然而,从AI角度来看,我们有足够的材料来玩。我们注意到大脑如何选择它认为使用重要性的信息的子集。并且,显着性描述了重要性(即特别明显的质量)。

我们可以从自下而上构建显着性,即,通过颜色,方向和强度刺激我们的区域,我们将我们的Fovea放在该区域上,或者自上而下,即,我们选择基于其重要性参加输入的子集。重要性由任务的上下文定义。有关更多详细信息,请参阅Koch和Ullman的精细工作[8]或[9]。

注意力的重要性从机器学习角度直观。并非输入(或编码输入,提取的功能,嵌入等)的所有部分都具有相同的生成(解码)预期输出。

这个概念应用的第一个例子是Bahdanau等。 [10]。在本文中,我们看到提取的特征不直接进入解码网络。相反,根据该分数,对中文传染媒介进行评分,并设置上下文向量。得到的网络是"参加"在句子中的一些词语,不仅仅是其他单词,基于预期的单词的上下文。听起来类似于我们从神经科学中学到的东西,但这里没有愿景。让我们在计算机视觉应用程序中查看一些注意力机制的示例。

在计算机视觉领域,关注机制的一个开创性作品是Mnih等人。 [11]。本文更有可能以前读取,选择和处理输入的子集,但实现了预测正确的输出。事实上,他们开发的是模仿扫视的一瞥传感器(即眼睛在固定之间的凝视变化)。闪闪发光传感器随机选择输入图像的较小子区域作为序列。提取的区域被馈入经常性网络以提出预测。该模型受到钢筋学习培训。

子区域随机选择的问题是它需要采样,并且尽可能多的读者知道它更难训练基于采样的模型而不是确定性和可微分的模型。这种关注机制的形式被称为"难以关注"计算注意力的确定方法称为#34;软关注"

最早的确定性注意机制之一是Xu等人。 [12]。实际上,他们在纸上表现出艰难的关注和柔软的机制。在这项工作中,通过参加图像的部分来生成图像的标题。他们还使用了Bahdanau的注意机制,即通过评分和形成上下文向量来计算所有提取的输入特征的计算权重,通过这些功能的加权量。由于注意机制可差,因此具有柔软关注机构的带有柔软注意机制的网络训练。

2017年后,我们在NLP领域看到了一个突破,通过仅使用注意机制构建网络。这个工作是名称"变形金刚&#34所知;由Vaswani等。 [13]。标题够了:"关注你需要的是你所需要的。该概念生下了一系列变压器:BERT [14],GPT-2 [15]和GPT-3 [16]。 Jaderberg等人的计算机愿景也实现了相同的变压器概念。 [17]。在[18]和[19]中可以在ML中的这种早期注意力机制中的一些作品。

尽管显着性是自ITTI等人以来的计算机视觉中的一个良好的领域。 [9:1]和SIMONYAN等人遍前的显着图定义。 [20],使用注意机制的显着性预测是新的[21],[22]。注意机制也找到了它的生成型号的位置。生成模型中最早的示例之一是绘制[23]和空气[24]。然后,许多其他论文从鼠标[25],哈特[26]或更近,哈特[27]和空间[28]。所有这些论文都涉及空间关注。

最后,作为无耻的自我推广,我提出了一种在推动愿景中出现突出特征的模型,以预测我的博士学位。论文。我的主要动机是简化具有整体视觉方法的自动驾驶或驾驶员辅助系统[29],[30]。

现在让我们潜入注意机制如何从成立到这一天。

我假设使用纸张和#34的机器学习中注意机制的开始;神经机翻译是通过联合学习对齐和翻译" By Bahdanau,Cho和Bengio [10:1]。我将解释电脑视觉中的另一种注意机制方法,但主流注意机制(现在非常受欢迎)首先出现在本文中。

神经电机翻译模型通常采用一种形式的编码器解码器架构。 NMT模型将输入文本编码为固定长度向量,然后其解码器使用此向量来生成翻译。然后,该模型学习如何将此向量与所需的翻译对齐。在他们的论文中,Bahdanau等人。提出了一个新的模型,在源句子中搜索源句子的位置,同时生成翻译中的单词。这里的关键是搜索完成。

本文使用术语"软"关于该搜索如何完成。让我们看看它的意思。我们首先按常规编码输入以创建注释(或嵌入)嗨。然后,在解码之前,我们创建一个名为上下文向量CI的东西。上下文向量实际上是注释的加权和:

这是"软"部分:$ a(。)$是评分函数,并作为前馈简单神经网络实现。因此,可以通过成本函数的反向传播梯度来训练整个上下文向量CI。所以本文向我们展示了如何参加输入的子集。此外,可以使用反向传播训练该模型。这种关注形式被称为"软"注意力。

在计算机愿景中,参加投入子集的想法是诱人的,因为它也是生物学素质的。包含注意思想的第一个纸是Mnih等人。 [11:1]。然而,这种形式的关注被称为"硬"注意,我必须解释一下。这一次,关键的想法是扫视。

生物学上,我们移动我们的Fovea(即,我们的视网膜的区域,敏锐是最高的)。这种现象称为扫视。在他们的论文中,Mnih等人。提出了一种模拟这种行为的模型。其经常性注意模型具有一瞥传感器,其常用于输入图像的子集。因此,该模型仅使用输入图像的子集,而不是使用其整体,以预测MNIST数字。后来,ba等。 [18:1]提出了一种增强的多PLE对象识别的难以注意模型。他们的DRAM(深度经常性注意模型)使用优化ELBO(即使用变分推理技术)进行培训,并且作者解释了MNIH等人使用的加强算法[31]的方式。

难以注意的模型的问题现在是显而易见的:他们需要VI或抽样,通常比梯度背部传播(即多样化)算法更难训练。这是在Xu等人的解释。纸质[12:1]其中作者展示了柔软和难以注意的模型。它们的模型通过参加输入图像的子区域来生成输入图像的标题。他们的柔软关注的模型使用Bahdanau的得分,其中硬注册版使用加强。

虽然有很多纸张在电脑视觉中涵盖了注意力,但最突出的一个是2017年的标题"关注是你所需要的。由Vaswani等。 [13:1]。让我们看看为什么这在下一节中很重要。

虽然我在我的博客文章中详细介绍了变压器,但我也会在这里快速覆盖。所以系好你的安全带。我在软关注模型中跳过良好数量的伟大论文的主要原因是它们都是相似的:它们正在使用编码器 - 解码器架构,其中他们学会使用评分系统参加输入的子集。然后变压器进来了。变压器的主要区别是,它摆脱了经常性网络,只使用"自我关注"

自我关注减少了计算复杂性,它可以在输入之间学习更长的依赖性。自我注意在顺序操作中具有常数O(1)时间,其中复制层具有O(n),其中n是输入令牌集的长度。此外,它不会维护输入的顺序顺序,因此它可以学习比反复模型更长的依赖性。顺便说一下,自我关注的手段,我们在输入令牌中保持注意力矩阵。该模型学习其中应该在当前时间步中参加令牌的令牌。

这种简单但激进的想法完全改变了过去几年的整个深度学习景观。我们现在有BERT [14:1],GPT-2 [15:1]和GPT-3 [16:1]。 Jaderberg等人的计算机愿景也实现了相同的变压器概念。 [17:1]而最近,Dosovitskiy等人的视觉变压器。 [32]。

现在,变压器成为主流和选择的型号。另一方面,在生成模型中还有另一个有趣的工作线。现在让我们看看如何在生成型号中应用关注。

最近,变形式自动编码器(或短的VAE)[33],这是深度学习和变分推理(VI)的混合,在生成建模中流行。变分推论是对目标的采样(例如Monte Carlo)方法的替代方案,其中目标是最大化Elbo(证据下限),所以我们的模型可以更好地近似原始输入分布。

此前,我提到了难以注意的模型使用采样方法(因此,这不是微分),尤其是加强算法和Ba等人。 [18:2]提出了一种基于VI的耐心培训算法,用于难以注意的模型。 GREGOR等人的绘制模型。 [23:1]是VAE系列的成员,提出了一种可区分的VI基础模型,其顺序地参加输入的子集以生成输入图像,而不是单个通过。

后来,通过伊斯拉里等人参加 - 再次重复(或空运)。 [24:1]提出比绘制或VAE更好的表示。因此,它以结构化方式学习良好的陈述(即愿景为逆图),这是良好的,没有监督。

另一方面,空气不是可扩展的,因此它由Sqair(顺序参加 - 推断 - 重复)[34],Spair(空间不变,推断,重复)[35]以及HART(分层关注经常性跟踪) [26:1],RATM(复发性注意力跟踪模型)[25:1]用于对象表示和序列之间的对象跟踪。

虽然神经科学的确切注意力(无论是公开还是封闭形式)仍然是未知的,但这并不会阻止美国AI研究人员,从模仿关注的表现特征。此外,激励部分是基于注意的模型在几乎所有领域实现最先进的。

总之,根据关注的模型的成功结果,我们希望在不久的将来会看到更多关注的模型。更重要的是,我们从神经科学中学的越多,我们可以构建的更好的ML方法和模型。最终,人类的大脑仍然是智力的黄金标准。

Grace W. Lindsay。注意心理学,神经科学和机器学习。在计算神经科学的前沿,14:29,4 2020.↩︎

Laurent Itti和Christof Koch。基于显着的搜索机制,可视化和隐蔽的视觉关注。在视觉研究中,第40卷,第1489-1506页,2000年6月6日。↩︎

Michael I. Posner。注意:意识的机制。美国美国国家科学院的汇报,91(16):7398-7403,8 1994.↩︎

Michael I. Posner和Stanislas Dehaene。注意网络。神经科的趋势,17(2):75-79,1994.↩︎

Giacomo Rizzolatti,Lucia Riggio,Isabella Dascola和CarloUmiltá。在水平和垂直的经络中重新定位注意力:有利于热敏注意力的证据。 Neuropsychologia,25(1,第1部分):31-40,1987。↩︎

Thomas Parr和Karl J. Friston。注意力还是Parience?目前的心理学意见,29:1-5,10 2019.↩︎

Christof Koch和Shimon Ullman。选择性视觉关注的转变:朝向底层神经电路。在情报问题上,第115-141页。 Springer,1987.↩︎

Laurent Itti,Christof Koch和Ernst Niebur。快速场景分析的显着性视觉关注模型。图案分析和机器智能的IEEE交易,20(11):1254-1259,1998。↩︎↩︎

Dzmitry Bahdanau,Kyunghyun Hyun Cho和Yoshua Bengio。通过联合学习来对齐和翻译神经机翻译。 Arxiv E-Print,Page Arxiv:1409.0473,9 2014.↩︎↩︎

Volodymyr Mnih,Nicolas Heess,Alex Graves和Koray Kavukcuoglu。重新目前的视觉关注模型。神经信息的进展,Persing Systems,3(1月):2204-2212,2014。↩︎↩︎

Kelvin Xu,Jimmy Lei Ba,Ryan Kiros,Kyunghyun Cho,Aaron C Courville,Ruslan Salakhutdinov,Richard S. Zemel和Yoshua Bengio。显示,参加并告诉:神经图像标题生成,具有视觉概念。 Cor,ABS / 1502.0:2048-2057,2015.↩︎↩︎

Ashish Vaswani,Noam Shazeer,Niki Parmar,Jakob Uszkoreit,Llion Jones,Aidan N. Gomez,ŁukaszKaiser,Illia Polosukhin,Lukasz Kaiser,Illia Polo-Sukhin,ŁukaszKaiser和Illia Polosukhin。关注是你所需要的。在神经信息处理系统的进步中,2017年第2017卷,页面5999-6009。神经信息处理系统基金会,2017年。↩︎↩︎

雅各布德林,明伟昌,肯顿李和克里斯蒂娜·塔拉诺瓦。 BERT:用于语言理解的深双向变压器的预训练。在2019年北美章节会议上的计算语言学协会会议上:HU-男子语言技术,第1卷(长篇短篇小写),第4171-4186页,Minneapolis,Minnesota,2019年6月6日。计算语言学协会。 ↩︎↩︎

Alec Radford,Jeff Wu,Rewon Child,David Luan,Dario Amodei和Ilya Sutskever。语言模型是无监督的多任务学习者。 2019.↩︎↩︎

汤姆b棕色,本杰明曼,尼克莱德,梅兰妮苏比亚,贾里德·卡尔里沃尔,勇敢的新泽兰,杨柳·斯卡拉德,阿曼达阿斯塔尔,桑德·阿斯塔尔,阿里尔赫伯特·沃斯,格雷德·克鲁格,汤姆大亨,汤姆大亨,汤姆大亨,汤姆大海, Aditya Ramesh,Daniel M Ziegler,Jeffrey Wu,Clemens冬天,Christopher Hesse,Mark Chen,Eric Sigler,Mateusz Litwin,Scott Gray,Benjamin国际象棋,杰克克拉克,克里克托弗·伯尔纳,山姆麦卡克里斯语,Alec Radford,Ilya Sutskever和Dario Amodei。语言模型是几秒钟的学习者。 2020.

Max Jaderberg,Karen Simonyan,Andrew Zisserman和Koray Kavukcuoglu。空间变压器网络。在C CORTES,N D Lawrence,D D D D D D D Lee,M Sugiyama和Rarnett,编辑,神经形成处理系统的进步28,卷2015-Janua,2017-2025页。 Curran Associates,Inc.,2015.↩︎↩︎

Jimmy Lei Ba,Volodymyr Mnih和Koray Kavukcuoglu。多重识别视觉关注。在第三届国际学习陈述会议中,ICLR 2015 - 会议轨道程序,第1-10页。国际学习陈述国际会议,ICLR,2015年12月12日。↩︎↩︎↩︎

Kyunghyun Cho,Aaron Courville和Yoshua Bengio。使用基于注意的编码器解码器网络描述多媒体内容。多媒体的IEEE交易,17(11):1875-1886,11 2015.↩︎

Karen Simonyan,Andrea Vedaldi,和Andrew Zisserman。内部内部概念网络:可视化图像分类模型和显着性图。 Arxiv预印迹Arxiv:1312.6034,2013。↩︎

Marcella Cornia,Lorenzo Baraldi,Giuseppe Serra和Rita Cucchara。通过基于LSTM的显着性细节模型预测人眼固定。图像处理的IEEE交易,27(10):5142-5154,10 2018.↩︎

王王,秋桂赖,华珠富,建冰沉,海拔玲。深度学习时代的突出对象检测:深入调查。 Arxiv,ABS / 1904.0,2019。↩︎

Karol Gregor,Ivo Danihelka,Alex Graves,Danilo Jimenez Rezende,Daan Wierstra,[电子邮件保护] Com,Danilo Jimenez Rezende和Daan Wierstra。绘制:用于图像生成的经常性神经网络。在Francis Bach和David Blei,编辑,第32次机器学习会议上,机器学习研究第37卷,第37卷,第1462-1471页,Lille,法国,2015年.PMLR。 ↩︎↩︎

S. M. Ali Eslami,Nicolas Heess,Theophane Weber,Yuval Tassa,David Szepesvari,Koray Kavukcuoglu,以及Geoffrey E. Hinton。参加,推断,重复:使用生成模型快速了解。在神经信息处理系统的进步中,页面3233-3241。神经信息处理系统基金会,2016年3。↩︎↩︎

Samira Ebrahimi Kahou,Vincent Michalski,Roland Memisevic,Christo-Pher Pal和Pascal Vincent。 RATM:复发性注意力跟踪模型。 在IEEE计算机愿景和模式识别研讨会上的IEEE计算机协会会议上,2017年7月 - 7月,第1613-1622页。 IEEE Culer Society,2017年8月8日。↩︎↩︎ Adam R Kosiorek,Alex Bewley和Ingmar Posner。 分层周度反复跟踪。 在神经信息的进步 ......