DiscoBERT：语篇感知的神经抽取文本摘要

2020-05-24 05:32:50

作者：徐家成(德克萨斯大学奥斯汀分校)，哲甘，于成，刘晶晶(Microsoft Dynamics 365 AI Research)。

本文提出的语篇感知模型选择EDU 1-1、2-1、5-2、20-1、20-3、22-1。图的右侧说明了我们使用的两个语篇图：(1)Coref(Erence)图(突出显示了‘普利策奖’)和(2)RST图(由RST语篇树诱导)。

代码基于AllenNLP(v0.9)，使用python3、allennlp和pytorch>；=1.0开发。欲了解更多要求，请查看requirements.txt。

在https://utexas.box.com/v/DiscoBERT-ACL2020.中提供了预处理后的CNNDM、预训练的CNNDM模型W、话语图和核心参考图，以及预训练的纽约时报模型W、语话图和核心参考图。

模型框架(培训、评估等)。基于AllenNLP(v0.9)，大多数与框架相关的超参数的使用，如批量大小、CUDA设备、每个历元的样本数，都可以参考AllenNLP文档。

在推理过程中可选择的最小和最大单位数(EDU或句子)。在CNNDM和NYT上选择EDU的典型值是[5，8)和[5，8]。

夸大了基于EDU的模型预测的单元数量，因为EDU通常比句子短。对于CNNDM，我们发现选择5个EDU会产生最好的Rouge F-1分数，而对于基于句子的模型，选择4个句子。

我们将一些矢量维数硬编码为768，因为我们使用的是BERT-BASE-UNCESS模型。

我们尝试了Roberta-BASE，而不是我们在这篇代码回放和论文中使用的BERT-BASE-UNCESS，但从经验来看，它在我们的初步实验中并没有表现得更好。

最大文档长度设置为768BPES，尽管我们发现max_len=768不会带来来自max_len=512的显著收益。

model/diso_bert.py是模型文件。有一些未使用的条件和超参数以"；semical_red"；开头，因此您应该忽略它们。

Configs/DiscoBERT.jsonnet是AllenNLP框架将要读取的配置文件，在https://utexas.box.com/v/DiscoBERT-ACL2020，的预训练模型部分，我们提供了配置文件以供参考，基本上采用了PreSumm中的大部分超参数。

@inProcestions{Xu-Etal-2020-Text，Title={话语感知的神经提取文本摘要}，作者={徐家成、甘、哲、程、余、刘、晶晶}，booktitle="；计算语言学协会第58届年会论文集，Year={2020}，Publisher="；

数据预处理(数据集处理程序、Oracle创建等)。部分基于杨柳和Mirella Lapata的PreSumm。

RST语篇切分是由NeuEDUSeg生成的。我稍微修改了代码，使其可以在GPU上运行。请在这里检查我的修改。

RST语篇分析是由DPLP生成的。我的定制版本提供了批量实现和剩余文件检测功能，我发现NeuEDUSeg提供了比DPLP更好的分割输出，所以我们使用NeuEDUSeg进行分割，使用DPLP进行解析。