LEPETITT:一种训练前、高效、闪电般的法语语言模型

2020-07-15 05:04:21

语言建模的最新进展导致了计算密集型和资源需求最高的模型。为了实现可持续的实践,我们引入了LEPEPETT:一个小小的法语模型。

在这个故事中,我们还将讨论为什么需要紧凑的模型,并在法语问答数据集(FQuAD)和跨语言情感(CLS)数据集上评估Lepett。

如果您正在寻找更深入的分析,我们将很快发布一篇关于预训练数据量对紧凑语言模型的重要性的研究论文。同时,这个模特还可以在拥抱面孔收藏中买到!

预先训练的语言模型已经成为自然语言处理的标准。这些基于Transformer的大规模网络通过两步过程极大地推动了语言理解的发展:在庞大的文本语料库上进行自我监督学习,然后在特定的下游任务上进行微调。

在这些进展之后,正在进行的趋势是使用不断增加的数据量(例如Roberta)和参数(例如GPT-3)构建更大的模型。然而,在数百千兆字节的文本中,具有数十亿参数的预培训模型需要巨大的计算资源,只有少数公司和机构才能负担得起。此外,这些繁琐的模型在推理时引入了显著的延迟,特别是在非专用硬件上。因此,我们的目标是探索模型体系结构和数据量,降低进入新研究和实际应用的门槛。

莱佩特的灵感来自其体型较大的亲戚卡门伯特(Camembert)。Camembert是一款具有两种架构的多层双向变压器:基础(12层,768个隐藏维度,12个关注头,110M参数)和大型(24层,1024个隐藏维度,16个关注头,355M参数)。它和罗伯塔非常相似。主要区别在于使用了全字掩码和SentencePiess标记化,而不是子字掩码和WordPiess标记化。Roberta本身通过在原始架构上聚合几个修改来改进Bert,例如删除下一个句子预测任务,动态掩蔽,在更多数据上进行更大批量的训练和更长时间的训练。

莱佩特拥有我们所说的小型架构(12层,256个隐藏维度,4个注意力头,17M参数)。与“卡门伯特”原作的主要不同之处在于使用了子词掩饰。事实上,作者后来发现,全字掩蔽充其量对下游任务绩效的影响微乎其微。

这几乎与ELECTRA-Small++的架构相同,ELECTRA-Small++是最近发布的紧凑语言模型。虽然ELECTRA和Camembert在许多方面不同(ELECTRA被训练为鉴别器而不是生成器),但ELECTRA团队之前进行的实验在预训练和微调模型时给出了一组可以接受的超参数。

“博览群书的学生学得更好”的作者观察到,在对紧凑模型进行预培训时,应该优先考虑深度而不是宽度。请注意,即使对于给定的参数预算,深度优于宽度,但正如DistilBERT团队所观察到的那样,这是以推理速度为代价的。

如上所述,Lepost比它的大兄弟要小得多,速度也快得多。与Camembert-base和Camembert-Large相比,它的推理速度分别提高了4.5倍和15倍,而小了6.2倍和18.8倍。

因此,lepost应该用于内存或时间受限的应用程序。例如,它可能会在智能手机或信息检索系统中找到它的用途。

OSCAR是最近发布的大型多语种开源语料库,是通过对Common Crawl语料库进行语言分类和过滤而获得的。整个法语部分总共有138 GB的文本。莱佩特只接受了2 GB的预培训,但我们的实验显示,性能相似的型号只需100MB就可以获得!

莱佩特接受了标准掩蔽语言建模(MLM)目标的预培训。传销在于训练模型预测段落中的掩蔽词。然后,这些知识被转移到我们选择的下游任务,如问题回答或自然语言推理,在那里模型将进一步微调。

针对20万个训练步骤进行预训练,在一台特斯拉V100 GPU上仅需35小时!

跨语言情感(CLS)数据集的法语部分就是其中一项任务。它包括3个产品类别的4000条亚马逊评论:书籍、DVD和音乐。我们考虑音乐类别。评论有一个相关的评分,从1到5。评分高于3的被贴上正面的标签,其余的被贴上负面的标签(3被排除在外)。给出一个回顾,任务在于预测它是积极的还是消极的。

在预训练之后,Lepost用以下方法对文本分类任务进行微调:审核通过模型,并生成添加到审核之前的令牌的表示。实际上,这个标记充当了段落级别的嵌入。然后,它被提供给一个分类负责人,负责区分正面和负面的评论。

Lepett和Camembert-base在CLS测试集上的准确率分别达到88分和95分。

法语问答数据集(FQuAD)是最近发布的法语母语阅读理解数据集。我们考虑它的新的1.1版本。它由60000个问题和答案组成,这些问题和答案收集在一组1769篇高质量的维基百科文章上。在很多方面,它相当于法国的1.1队。给出一个问题和一个段落,任务在于从段落中提取回答问题的文本的跨度。

经过预训练,莱佩特用与伯特相同的广度预测方法对问题回答任务进行了微调。也就是说,对于给定的问题/段落对,它为段落中的每个标记预测其作为预期答案的开始或结束的可能性。这些开始和结束分隔符(包括)之间的所有令牌将构成返回的答案。

莱佩特在FQuAD验证集上达到了72分的F1得分和58分的精确匹配。这意味着,平均而言,72%的被模型标记为答案的令牌对应于基本事实答案,58%的预测答案与预期答案完全匹配。

对于锚定,Lepost直接在FQuAD上进行微调,而不经过预培训阶段,F1得分仅为17.76分。对于较大的体系结构,采用标准两步过程训练的Camembert-base和Camembert-Large模型分别获得了88和92的F1分数。

虽然问题回答对于紧凑型车型来说是出了名的困难,在胶水般的任务中,紧凑型和大型车型之间的性能差距较小,但莱佩特仍然可以学习如何回答长辈的问题!

这将是研究经典和高级蒸馏策略的第二部分的主题。如果你想知道更多关于莱佩特如何通过提炼卡门伯特的知识达到F1 80+的分数,请继续关注!