命名张量

2020-08-18 00:27:08

尽管张量在深度学习中无处不在，但它已经崩溃了。它迫使人们养成暴露私有维度、基于绝对位置广播、将类型信息保存在文档中等坏习惯。这篇文章提供了另一种方法的概念证明，称为张量，具有命名的维度。此更改消除了对索引、模糊参数、einsum样式解包和基于文档的编码的需要。这篇博客文章附带的原型PyTorchlibrary名为namedtensor。

Jon Malmaud指出，xarray项目的目标与本文非常相似，增加了扩展的熊猫和科学计算支持。

斯蒂芬·霍耶(Stephan Hoyer)和埃里克·克里斯汀森(Eric Christian)有一个标记为Tensorflow的张量库，它与这个Appraoch相同。标号张量。

#@标题安装#！rm-fr命名张量/；git克隆-q https://github.com/harvardnlp/NamedTensor.git#！cd命名张量；pip安装-q；pip install-q手电筒编号opt_einsum。

这篇文章是关于张量类的，这是一个多维数组对象，是深度学习框架(如Torch、TensorFlow和Chainer)以及Numpy的中心对象。张量携带一个存储斑点，并向用户公开大量的维度信息。

这里有4个维度，分别对应于BATCH_SIZE、高度、宽度和通道。大多数情况下，您可以通过代码中的一些注释来解决这个问题，代码如下所示：

这种方法简明扼要，而且是伪数学的。然而，从编程的角度来看，这不是构建复杂软件的好方法。

操作张量的代码通过元组中的维标识符执行此操作。如果您想旋转您阅读评论的图像，确定需要更改的尺寸并更改它们。

定义旋转(IMS)：#Batch_Size x高度x宽度x旋转的通道=IMS。转置(1，2)#Batch_Size x宽度x高度x通道返回旋转旋转(IMS)[0]。

这段代码很简单，理论上有很好的文档记录。但是，它不反映目标函数的语义。旋转属性与批次或通道无关。在确定要更改的维度时，该函数不应考虑这些维度。

这导致了两个问题。首先，非常令人担忧的是，如果我们传入一个单例图像，则此函数运行良好，但无法正常工作。

然而，更令人担忧的是，该函数实际上可能会错误地使用BatchDimension，并将不同图像的属性混合在一起。这可能会导致令人讨厌的错误，如果对代码隐藏此维度，则很容易避免这些错误。

张量最有用的方面是它们可以快速地进行数组运算，而不直接需要循环。要做到这一点，维度需要直接对齐，这样它们才能成为广播。同样，这是通过约定和代码文档来完成的，这使得排列维度变得“容易”。例如，假设我们想要对上面的图像应用蒙版。

这是失败的，因为即使我们知道我们正在建造一个高度和宽度形状的面具，广播规则也没有正确的语义。要实现这一点，我们鼓励您使用视图或压缩我最不喜欢的函数。

#任一掩码=掩码。解压(-1)#或MASK=MASK。视图(96，96，1)#高度x宽度x通道IMS。MASTED_FILL(MASK，1)[0]。

注意，我们不需要对最左边的维度执行此操作，因此这里有一点抽象。然而，通过实际代码阅读时，数十个右侧视图和压缩内容会变得完全不可读。

您可能会看到前两个问题，认为只要小心，这些问题就会被运行时错误捕获。但是，即使很好地使用广播和索引的组合，也会导致很难捕获的问题。

A=IMS[1]。Mean(2，Keepdim=True)#高x宽x 1#(中间有很多代码)#...。#解释应该发生什么的代码注释。Dim=1b=a+ims。Mean(Dim，Keepdim=True)[0]#(或者可能应该是2？或0？)。索引=2b=a+ims。Mean(Dim，Keep Dim=True)[0]b。

在这里，我们假设编码器正在尝试使用缩减操作和维度索引来组合两个张量。(老实说，在这一点上，我已经忘记了维度代表什么)。

不过，主要的一点是，无论给定dim的值是什么，此代码都可以正常运行。这里的注释可能描述了正在发生的事情，但是代码本身不会抛出运行时错误。

基于这些问题，我认为深度学习代码应该转向更好的中心对象。其中有几个建议。在这里，为了好玩，我将开发一个新的原型。我有以下目标。

为了试验这些想法，我构建了一个名为NamedTensor的库，目前它是特定于PyTorch的，但理论上类似的想法可以在其他框架中使用。代码可以在github.com/atherardnlp/namedtensor上找到。

库的核心是一个对象，它包装张量并为每个维度提供名称。在这里，我们简单地用维度名称包装给定的火炬张量。

名称的第一个好处是能够完全取代对Dimand轴样式参数的需要。例如，假设我们想要对每列进行排序。

所提供的名称也为广播操作提供了基础，当两个命名张量之间存在二进制操作时，它们首先确保所有维度在名称上匹配，然后应用标准广播。为了演示，让我们返回到上面的掩码示例。在这里，我们只需声明我们的面具尺寸的名称，并要求图书馆计算出广播。

IM=命名张量(IMS[0]，("；高度"；，"；宽度"；，"；通道"；)IM2=命名张量(IMS[1]，("；高度"；，"；宽度"；，"；通道"；))掩码=命名张量(火炬。Randint(0，2，[96，96])。Byte()，("；高度"；，"；宽度"；))im。MASTED_FILL(掩码，1)。

一个更普遍的特征是名称传感器之间张量收缩的点法。张量压缩是Einsum背后的机制，它是考虑点积、矩阵向量乘积、矩阵矩阵乘积等的推广的一种优雅的方法。

类似的符号可以用于稀疏索引(灵感来自einindex库)。这是有用的前嵌入查找和其他稀疏操作。

在幕后，所有命名的张量都充当张量对象。正如诸如此类的事情一样，维度的秩序和步幅确实很重要。TRANSPOSE和VIEW等操作对于维护这一点至关重要，但不幸的是它们很容易出错。

取而代之的是，考虑一种领域特定的语言转换，它大量借鉴了Alex Rogozhnikov优秀的einops包。

张量=命名张量(IMS，('；b&39；，'；h'；，'；w'；，'；c'；))张量。Split(h=('；h1'；，'；h2'；)，h2=2)。Split(w=('；w1'；，'；w2'；)，w2=2)\。平均值('；h2'；，'；w2'；))。堆栈(bw=('；b'；，'；w1'；))。

张量=命名张量(IMS，('；b&39；，'；h'；，'；w'；，'；c'；))张量。Split(b=('；b1'；，'；b2'；)，b1=2)。平均(#39；c&39；)\。堆栈(bw=("；b1"；，"；w"；)，bh=('；b2'；，'；h'；))。转置('；bh'；，'；bw'；)

从Torch中拉出了一些有用的命名替代函数。例如，解除绑定会将一个维分离为一个元组。

最后，窄索引可以用来代替花哨的索引。但是，您必须给出一个新的暗淡的名称(因为它不能再广播了)。

最后，命名张量试图让您直接隐藏不应该被内部函数访问的维度。函数MASK_TO将保持在保护任何较早维度不受函数操作的左侧掩码周围。最简单的示例使用掩码删除批次维度。

Def BAD_Function(x，y)：#访问私有批处理维度返回x。平均值(#34；批次#34；)x=ntorch。随机n(dict(批次=10，高度=100，宽度=100))y=ntorch.。RANDN(dict(Batch=10，Height=100，Width=100))try：BAD_Function(x.。MASK_TO("；批"；)，y)除运行错误外错误为e：error="；收到错误："；+str(E)错误。

这是弱动态检查，可以通过内部功能关闭。在将来的版本中，也许我们可以添加函数注释来提升未命名的函数，以尊重这些属性。

为了说明为什么这些选择会带来更好的封装属性，让我们考虑一个真实世界的深度学习示例。

这个例子是我的同事Tim Rocktashel在博客PostDescription Einsum(https://rockt.github.io/2018/04/30/einsum).)中提出的。Tim的代码被建议作为原始PyTorch的更好替代方案。虽然我同意Einsum是向前迈进了一步，但它仍然落入了上述许多陷阱。

Def Random_ntensor(名称，Num=1，Requires_grad=false)：张量=[ntorch.。如果num==1，则返回张量[0]如果num==1，则返回张量类参数：def__init__(self，in_hid，out_hid)：Torch。MANUAL_SEED(0)SELF。怀伊，赛尔夫。什，赛尔夫。WR，赛尔夫。Wt=\Random_ntenors(dict(inhid=in_hid，outhid=out_hid)，num=4，requires_grad=True)self。BM，赛尔夫。布莱尔，赛尔夫。W=\Random_n张量(dict(outhid=out_hid)，Num=3，Requires_grad=True)

#Einsum实现import torch.nn.function as F def einsum_attn(params，Y，ht，rt1)：#--[BATCH_SIZE x HIDDEN_DIMENSION]tmp=torch。Einsum("；ik，kl->；il&34；，[ht，param.。WH。值])+\手电筒。Einsum("；ik，kl->；il&34；，[rt1，param.。WR.。值])mt=手电筒。Tanh(手电筒。Einsum("；ijk，kl->；ijl&34；，[Y，param.。怀俄明州。值])+\tmp。解压(1)。展开_AS(Y)+PARAMS。宾夕法尼亚州立大学。值)#--[BATCH_SIZE x SEQUENCE_LENGTH]at=F。Softmax(手电筒。Einsum("；ijk，k->；ij&34；，[mt，param.。W.。值])，DIM=-1)#--[BATCH_SIZE x HIDDED_DIMENSION]RT=手电筒。Einsum("；ijk，ij->；ik&34；，[Y，at])+\torch。Tanh(手电筒。Einsum("；ij，jk->；ik&34；，[rt1，param.。WT。值])+参数。Br.。值)#--[Batch_Size x Hidden_Dimension]，[Batch_Size x Sequence_Dimension]返回RT，位于。

此实现是对朴素的PyTorch实现的改进。它移动了许多视图和转置，这将是实现这一工作所必需的。但是，它仍然使用挤压，引用私有批处理DIM，并使用未强制执行的注释。

Def namedtensor_attn(参数，Y，ht，rt1)：tmp=ht。点("；隐藏"；，参数。WH)+RT1。点("；隐藏"；，参数。Wr)at=ntorch。Tanh(Y.。点("；隐藏"；，参数。WY)+tmp+params。Bm)\。点("；outhid"；，param.。W)\。Softmax(#34；seqlen&34；)rt=Y。点("；序列"；，at)。堆栈(inhid=('；outhid'；，))+\n手电筒。Tanh(RT1.。点("；隐藏"；，参数。WT)+参数。Br)返回RT，位于。

(陷阱3)跨DIM的操作是明确的。例如，Softmax明显超出了序列。

#运行Einsum in_hid=7；out_hid=7 Y=手电筒。Randn(3，5，in_HID)ht，rt1=手电筒。Randn(3，in_HID)，火炬。Rann(3，in_hid)params=param(in_hid，out_hid)r，a=einsum_attn(params，Y，ht，rt1)。

#运行命名张量(隐藏批次)Y=命名张量(Y，("；Batch&34；，"；seqlen"；，"；inHid"；)，MASK=1)ht=Named张量(ht，("；Batch"；，"；inHID"；)，MASK=1)rt1=Named张量(RT1，("；Batch"；，)，掩码=1)nr，na=namedtensor_attn(params，Y，ht，rt1)。

深度学习工具帮助研究人员实现标准模型，但它们也会影响研究人员的尝试。目前的模型可以用我们拥有的工具很好地构建，但是编程实践不会扩展到新的模型。

(例如，我们最近一直在研究的一个空间是离散潜变量模型，它通常有许多特定于问题的变量，每个变量都有各自的行变量维数。这一设置几乎立即打破了当前的张量范式。)

这篇博客文章只是这种方法可能走向何方的一个原型。如果你感兴趣，我希望能为这个图书馆的建设做出贡献。如果你想把公关寄给Namedtensor，我会给你一些建议。一些想法：

1)扩展到PyTorch之外：我们能以一种支持NumPy和TensorFlow的方式来推广这种方法吗？

2)与PyTorch模块交互：我们是否可以“提升”带有类型注释的PyTorch模块，以便我们知道它们是如何更改输入的？

3)错误检查：是否可以在函数中添加注释，给出前置条件和后置条件，以便自动检查尺寸。

如果下面有俗气的广告，很抱歉：Disqus似乎是自动做到这一点的。

http://nlp.seas.harvard.edu/NamedTensor

tags users