Nubia:一种面向文本生成的SOTA评价指标

2020-05-02 18:06:20

努比亚是用于文本生成的SOTA评估指标。它代表基于神经的互换性评估器。除了返回可互换性分数外,努比亚还返回语义关系、矛盾、无关性、逻辑一致性和语法方面的分数。

努比亚由三个模块组成。首先是神经特征提取。支持该度量的三个主要神经特征是语义相似性、逻辑推理和句子易读性。这些都是通过暴露强大的(预先训练的)语言模型中的层来提取的:Roberta STS用于语义相似性,Roberta MNLI用于逻辑推理,GPT-2用于句子易读性。

第二个模块是聚合器。这个模块被训练成近似一个将输入神经特征映射到反映句子互换程度的质量分数的函数。我们的目标是尽可能接近人类的评估。

最后一个模块是校准。这是必要的,因为聚合器没有限定在0和1之间,并且将参考句子与其自身进行比较的回归分数也不总是输出1。因此,为了校准,根据参考句子与其自身比较的分数对输出进行归一化,并且限定在0和1之间。

在评估机器翻译和图像字幕的质量方面,我们已经能够达到SOTA性能。下面的结果是皮尔逊与语段级别人类对WMT17到英语翻译的判断的绝对相关性。

下面的结果是Kendall的Tau与人类在Flickr 8K数据集上的判断的相关性。

努比亚在对抗BLEU和胭脂时特别强大。以下是努比亚、胭脂-L和BLEU在整个wmt-2017年细分市场水平集上的得分和标签图。

他同意我的一个建议。他同意我的建议。

而BLEU、胭脂和贝茨得分较低(分别为0.43、0.2 8、0.6 3),努比亚得分为0.95。

Rouge_1 is:0.4285714235714286 Rouge_2 is:0.0BlEU is:0.2802636449867835BERT分数是:(0.5967282652854919,0.6308560967445374,0.6143679618835449)努比亚分数:0.9504227034094436语义关系:4.672990322113037/5.0矛盾的可能性:0.26220036670565605%无关或新信息的几率:0.5306123290210962%逻辑一致的几率:99.20719265937805%。

当不可能!";改为完全可行!";时,矛盾分数从0.073%上升到99.5%,尽管句子S1的结构非常不同。

有关更多示例,请查看repo和CoLab笔记本。为了更好地理解方法和动机,请查看论文和努比亚的背景故事。