DiscoBERT:语篇感知的神经抽取文本摘要

2020-05-24 05:32:50

作者:徐家成(德克萨斯大学奥斯汀分校),哲甘,于成,刘晶晶(Microsoft Dynamics 365 AI Research)。

本文提出的语篇感知模型选择EDU 1-1、2-1、5-2、20-1、20-3、22-1。图的右侧说明了我们使用的两个语篇图:(1)Coref(Erence)图(突出显示了‘普利策奖’)和(2)RST图(由RST语篇树诱导)。

代码基于AllenNLP(v0.9),使用python3、allennlp和pytorch>;=1.0开发。欲了解更多要求,请查看requirements.txt。

在https://utexas.box.com/v/DiscoBERT-ACL2020.中提供了预处理后的CNNDM、预训练的CNNDM模型W、话语图和核心参考图,以及预训练的纽约时报模型W、语话图和核心参考图。

模型框架(培训、评估等)。基于AllenNLP(v0.9),大多数与框架相关的超参数的使用,如批量大小、CUDA设备、每个历元的样本数,都可以参考AllenNLP文档。

在推理过程中可选择的最小和最大单位数(EDU或句子)。在CNNDM和NYT上选择EDU的典型值是[5,8)和[5,8]。

夸大了基于EDU的模型预测的单元数量,因为EDU通常比句子短。对于CNNDM,我们发现选择5个EDU会产生最好的Rouge F-1分数,而对于基于句子的模型,选择4个句子。

我们将一些矢量维数硬编码为768,因为我们使用的是BERT-BASE-UNCESS模型。

我们尝试了Roberta-BASE,而不是我们在这篇代码回放和论文中使用的BERT-BASE-UNCESS,但从经验来看,它在我们的初步实验中并没有表现得更好。

最大文档长度设置为768BPES,尽管我们发现max_len=768不会带来来自max_len=512的显著收益。

model/diso_bert.py是模型文件。有一些未使用的条件和超参数以";semical_red";开头,因此您应该忽略它们。

Configs/DiscoBERT.jsonnet是AllenNLP框架将要读取的配置文件,在https://utexas.box.com/v/DiscoBERT-ACL2020,的预训练模型部分,我们提供了配置文件以供参考,基本上采用了PreSumm中的大部分超参数。

@inProcestions{Xu-Etal-2020-Text,Title={话语感知的神经提取文本摘要},作者={徐家成、甘、哲、程、余、刘、晶晶},booktitle=";计算语言学协会第58届年会论文集,Year={2020},Publisher=";

数据预处理(数据集处理程序、Oracle创建等)。部分基于杨柳和Mirella Lapata的PreSumm。

RST语篇切分是由NeuEDUSeg生成的。我稍微修改了代码,使其可以在GPU上运行。请在这里检查我的修改。

RST语篇分析是由DPLP生成的。我的定制版本提供了批量实现和剩余文件检测功能,我发现NeuEDUSeg提供了比DPLP更好的分割输出,所以我们使用NeuEDUSeg进行分割,使用DPLP进行解析。