别忘了联想记忆

2020-11-08 09:38:03

人工神经网络和深度学习已经成为许多当代机器学习实践者和研究人员的首选工具。但在很多情况下,你需要比基本统计分析更强大的东西,但又不像深度神经网络那样复杂或计算密集。历史为我们提供了许多可以追溯到多层感知器时代的方法。然而,尽管在使能技术方面取得了现代进步,但这些替代方法中的许多都在阴影下萎靡不振。其中一种方法被称为联想记忆(Associative Memory)。

联想记忆(AM)是一种受同名心理概念启发的模式存储和检索系统。学习和记忆研究的关键发现表明,给定的刺激(物体、形状、单词)作为记忆存储在大脑中,并与相关刺激相关。当我们体验到触发AM的刺激时,我们可以回忆起与这些输入相关的记忆。你有没有闻过和/或尝过一道菜,并回忆起其他地方和时间的强烈记忆?听一首老歌,回想一下你第一次听到它的时候你在做什么,怎么样?你会听到这样一句话,“男人的一小步…”,你可以回忆起这句话的其余部分。这些都是AM的例子。

当应用于计算机科学问题时,联想记忆有两种高级形式:自联想记忆和异联想记忆。虽然两者都能够在给定一组输入的情况下回忆模式,但当提供X的部分或噪声变体时,自联想记忆主要集中于回忆模式X。相比之下,异联想记忆不仅能够从它们的输入中回忆不同大小的模式,而且可以被用来在类别之间映射概念(因此称为异联想)。文献中的一个常见例子是异质联想记忆,它可能会回想起嵌入的动物概念“猴子”,因为嵌入的食物概念是“香蕉”。由于所有形式的AM都集中在被存储和检索的实际内容上,它们在文献中通常也被称为内容可寻址存储器(CAM)。

虽然对原始AM系统进行了许多实现、扩展和改进,但当前的AM也包含一些共同的功能。与人工神经网络(ANN)类似,AM包括神经元的表示。然而,与当代的人工神经网络不同,AM神经元包含一个通常不需要可微的核函数,因为大多数AM算法没有反向传播步骤(尽管正如我们稍后将看到的,Kosko的BAM可能是一个例外)。取而代之的是,AM依赖于在前向训练过程中更新的权重,这些权重通过神经元传递,通常实施Hebbian风格的学习。这使得一些实现可以在相对简单的域上实现一次或几次学习(Acevedo-Mosqueda,2013)。相比之下,大多数深度学习方法都是使用经过深思熟虑的猜测、通过超参数进行的网格搜索和实践者的直觉的某种组合来调整的,对培训努力或网络容量没有理论上的上限。这通常需要大量的计算资源和时间来充分探索。公平地说,AUTO-ML方法正在解决这个问题,但它们需要时间和资源来进行培训。

几个现代AM系统的一个有趣特性是能够通过超参数调优“忘记”旧模式。因此,随着新的培训数据的提供,这些系统是完全可更新的。这可能成为一个重要的设计考虑因素,因为任何给定的AM可以高精度和高召回率学习的模式数量在理论上是有限制的。这通常是模型中神经元数量的函数(Hopfield,1982;Chou,1988;Acevedo-Mosqueda,2013;Ritter&Amp;Sussner,1998)。一些异相联想记忆还允许相对简单的反向遍历。使用上面的例子,您可以训练AM将“香蕉”作为输入并返回“猴子”,然而,用“猴子”的概念反向查询AM会得到一个或多个与猴子相关的食物概念(例如“香蕉”)(Kosko,1988)。其他例子展示了如何优化AM以进行时间推理;如果提供了一系列输入模式,它们能够预测以下一个或多个模式。

在计算机科学中,联想记忆最早是由Karl Steinbuch(1961)以LernMatrix的形式提出的。其他研究人员需要几年时间才能采用这一概念并对其进行扩展(Willshaw等人,1969;Kohonen,1974),但主要突破是随着离散Hopfield网络(Hopfield,1982)和扩展连续变量(Hopfield,1984)的引入。随后对Hopfield网络的研究,与多层感知器相结合,为当今大多数有监督的机器学习研究奠定了基础。下面我们将探讨几个影响最大的

斯坦布赫专注于永久性硬件存储器和模拟表示,D.J.Willshaw试图采用当时已知的全息图案存储和检索理论,并用全息概念扩展《勒恩矩阵》中提出的方法。威尔肖(1969)的贡献后来被称为相关记录仪或相关记录仪。相关记录仪可以用来描述一种他称之为联想网络的简单化神经网络模型。Wilshaw模型首先提出了一种量化的联想记忆方法,强调从成对的刺激中激活神经元,并基于McCulloch-Pitts(MCP)神经元模型(McCulloch&Amp;Pitts,1943)。威尔肖的方法还提出了可用容量的理论上限,以及一种能抵抗输入噪声的方法。

虽然Correlograph是朝着更有效的LernMatrix软件实现迈出的一大步,但在AM研究中最有影响力的里程碑之一可能是Hopfield网络的出现(Hopfield,1982)。最初的Hopfield网络是一个随机模型,它可以利用伊辛自旋眼镜(Ising,1925;Wikipedia-Ising Model,2020)的记忆能力和通过模型权重调节的能量流来学习离散模式。伊辛模型的目的是摆脱纯粹的“电线和火力”机制。基于能量学的物理模型可能会让我们更好地考虑潜伏期和模式强化。最初的Hopfield网络还提出了一种异步更新方法,而不是纯粹的同步方法,更接近于生物神经活动。尽管如此,霍普菲尔德本人认为,由于当时的计算限制,这并不是特别实用。Hopfield还提出了他的网络中非退化模式存储和回忆的理论上限为0.15N,其中N是网络中神经元的数量。例如,如果你想在Hopfield网络中存储15个模式,并且具有可接受的退化和很强的抗噪能力,那么你至少需要100个神经元。他还基于随机更新率W{W|0.0≤W<;1.0}提出了一个合理的收敛迭代极限,该极限可以在整个模式集上进行~4/W次迭代后达到记忆稳定性。

1984年,Hopfield提出了1982年模型的连续、确定性版本,取消了MCP神经元,使用了类似于感知器的新神经元(Rosenblatt,1957)。事实证明,这种方法对错误的适应性更强,并且支持连续(而不是离散)输入、权重和输出。大多数当代的AM方法至少部分基于Hopfield网络的这种变体。我们还看到它在现代神经网络中的影响,包括离散或连续的输入、权重和输出;感知器启发的神经元;以及模拟退火和梯度下降等基于能量的优化方法。

大多数AM研究跟踪Hopfield的开创性工作,集中在自联想或异联想的单向方法上。当提供模式对(A,B)时,如果提供A作为输入,则这种网络只能在一个方向上训练以产生B。Kosko提出了双向联想记忆,它不仅可以学习A-→-B联想,还可以学习B-→-A联想(Kosko,1988年)。这是通过将传统的离散二进制值集合{0,1}变换成双极形式{-1,1},计算相关矩阵,并用相关矩阵更新AM权重矩阵M来实现的。结果是,当在“向前”方向给出A时,AM可以产生B,但当在“向后”传递给B时,它可以利用权重矩阵的转置来产生A。

BAM方法支持连续输入,只要值可以通过导数始终为≧0的单调函数进行转换即可。BAM的另一个有趣功能是,只需简单地更新权重矩阵,就可以忘记配对。在两个方向上也支持时间模式,因此使用A1→A2→A3(实质上是A1→A2,A2→A3)训练BAM可以反向遍历为A3→A2→A1。由于BAM模型所允许的灵活性和快速训练,它从一开始就被用作许多异联想方法的基础。从概念上讲,使用前向和后向传递来加强一对模式之间的关联,与现代BiLSTM和反向传播方法在循环深度学习模型中使用的方法没有什么不同。

与此同时,Kosko正在开发BAM,以解决基于Hopfield的空管的单向缺点,而Kanerva正在努力解决容量问题。Hopfield网络的大小(神经元的数量)通常受到输入和输出向量大小的限制。例如,如果输入模式A总是10位,而输出模式B总是10位,那么神经元的最大数量

到目前为止,我们研究的大多数AM模型都是基于某种形式的线性-线性或线性-非线性变换。他们使用MCP或感知器神经元方法。意识到这些基于神经元的模型存在局限性,Ritter和Sussner(1998)提出了形态神经网络,特别是形态自联想记忆,以解决传统Hopfield网络及其变体的容量和回忆缺陷。形态学方法涉及两个相关矩阵和一个基于格代数的非线性-非线性变换。一个矩阵使用最大化变换来构造,另一个矩阵使用最小化变换来构造。这与某些深度学习方法中的最小-最大合并没有什么不同。总而言之,这对矩阵提供了对记忆的侵蚀和膨胀阻力,以及无限的模式存储和回忆提供了准确的输入。回想一下,在相同条件下,Hopfield网络的理论最大容量为0.15N。形态AM的另一个优点是一次性学习,它不像Hopfield网络那样需要多次迭代训练才能收敛。与之前的许多AM方法不同,培训可以并行进行。

到目前为止讨论的许多开创性的里程碑都是在2000年之前发表的,这大约是传统的具有反向传播的前馈多层感知器作为事实上的统计最大似然方法被研究人员扎根的时候。话虽如此,在一些活跃的研究中,AM仍然拥有强大的追随者。其中许多应用在图像识别和高性能模式匹配系统中。

AM研究的一个有趣分支最初是由Yáñez-Márquez(2002)在他的名为Alpha-Beta联想记忆的博士论文中提出的。由于无法获得他的英文论文的公开副本,可获得的关于原始Alpha-Beta AM的最早出版物为这一讨论提供了基础(Yáñez-Márquez等人,2018年)。虽然Alpha-Beta AM基于Ritter&Amp;Sussner提出的形态AM,但它增加了非线性最小-最大运算,在最小-最大运算之前通过所谓的𝛼和𝛽运算对X和Y模式进行额外的预处理。

还更新了矩阵对的更新规则,以支持新的𝛼和𝛽运算,其中在学习阶段使用𝛼运算,在调用期间使用𝛽运算。通过利用用于𝛼和𝛽运算的可能值的约束集合,可以调整对偶矩阵模型以获得更高的容量和单次学习,并且在理论上,在存在噪声(加法和减法)的情况下改进了比原始形态AM更好的模式匹配。Alpha-Beta AM及其变体已成功应用于图像处理、色彩匹配、污染物检测、生物信息学、软件工程和医疗支持系统,从2006年到2017年发表了100多篇论文;据作者称,截至2018年,该模型还有很长的路线图要走。不幸的是,2018年出版物中报道的研究团队网站目前无法访问,因此该小组的研究活动状况目前尚不清楚。

AM研究的另一个耐人寻味的分支涉及通过所谓的分布式联想记忆进行扩展。早在20世纪90年代初的文献中就提到了一种用于数据库恢复的分布式AM,但几乎所有这些方法都涉及以一种能够抵抗故障硬件(包括Kanerva的SDM)的方式将AM存储分布在本地内存或持久性存储中的策略。在他的博士论文中,斯特恩提出了一种基于改进的布卢姆过滤器、Hopfield网络和纠错算法的分布式AM策略,这些算法理论上可以分布在一个网络上,并支持大规模并行训练和召回(2011)。虽然斯特恩提出这是对基本生物神经系统的计算模拟,但在这方面已经有了一些后续研究,这些研究扩展了他的布卢姆过滤器的变体,以及构建更大的类似AM的网络。

近年来,深度学习从业者逐渐意识到,有时混合解决方案可以带来更快的学习速度和更好的结果。一个例子是深度信念网络,它有一个深度学习前端,最后一层被视为联想记忆(Hinton,2009)。该模型已成功地用于音频和NLP解决方案(Sarikaya等人,2014年;Mohamed等人,2012年;Mohamed等人,2011年)。最近,对Bert语言模型、转换器体系结构和相关注意机制的深入研究揭示了一个隐含的、嵌入的Hopfield类型的网络,许多人认为这是一种SOTA深度学习体系结构(Ramsoer等人,2020)。进一步的实验报道

Veloxiti成立于1987年,基于基于知识的人工智能(KBAI)方法,特别是利用观察-定向-决策-行为(OODA)循环来自动化定义明确的领域中的挑战。大约在2010年,该公司开发了一种基于稀疏压缩矩阵的专有AM分类系统,该系统实现了以下独特功能:

针对流实时传感器信号和非结构化文本数据等复杂数据类型的功能工程。

Veloxiti的AM系统被应用于石油生产系统,用于实时异常检测和井况分类(Stephenson,2010)。它还被嵌入到OODA循环中,以在系统中的关键决策节点提供可解释的ML分类,以及在具有少量样本或一次性需求的系统中作为独立的分类器。(坦白地说,我受雇于Veloxiti,利用他们的AM系统来解决各种ML挑战,通常是在数据集太小而当代的ML方法无法有效的情况下。)。

通过我们对联想存储器的历史、现状和未来方向的探索,我希望你对该领域的丰富性有一个新的认识,不仅适用于软件,也适用于各种应用的硬件。在应对新挑战时,许多机器学习从业者倾向于从基本的统计方法上升到高级方法,可能会略微涉足优化方法。

.