想像变形金刚

2021-06-16 21:58:49

下载PDF摘要:变压器后面的计算模型是什么?在经常性的神经网络在有限状态机中具有直接方向性,允许Cleardiscussion和围绕架构变体或训练型型号思考,变压器没有如此熟悉的并行。在本文中,我们的目标是改变,提出了一种编程语言形式的变压器编码器的计算模型。我们将变压器 - 编码器的基本组件映射到关注和前馈计算 - 进入简单的基元,我们构成了编程语言:受限制的访问序列处理语言(RASP)。我们展示了如何使用RASP对TaskSthat的解决方案来编程,可以通过变压器来学习,以及如何训练变压器以模仿RASP解决方案。特别是,我们为直方图,排序和Dyck语言提供RASP程序。我们进一步使用我们的模型在所需的层数和注意头的数量方面使用我们的模型来获取难题:分析锉刀程序意味着在变压器中编码任务所需的最大头号和图层。最后,我们了解如何从我们的秘密中获得的洞察力如何用于解释最近有效的现象。

书目工具代码&关于Arxivlabs Arxivlabs的数据相关论文是一个框架,允许合作者在我们的网站上直接开发和分享新的Arxiv功能。

与Arxivlabs合作的个人和组织都接受并接受了我们的开放,社区,卓越和用户数据隐私价值观。 Arxiv致力于这些价值观,只与遵守它们的合作伙伴合作。

有一个项目,将增加Arxiv'社区的价值?了解有关Arxivlabs以及如何参与的更多信息。