TL;科学文章的DR AI

2020-11-24 05:19:49

科学搜索引擎的创建者已经发布了一种软件,该软件可以自动生成研究论文的一句话摘要,他们说这可以帮助科学家更快地浏览论文。

这个免费工具创建了团队所谓的TLDR(互联网上常见的缩写,“太长了,没读过”),并于本周在由非营利性艾伦研究所创建的搜索引擎Semantic Sc​​holar中激活了搜索结果。华盛顿西雅图的人工智能(AI2)。目前,该软件仅为语义学者涵盖的一千万篇计算机科学论文生成句子,但是一旦对该软件进行了微调,其他学科的论文将在下个月左右得到摘要。 ,负责管理AI2的语义学者小组。

他说,初步测试表明,该工具可以帮助读者更快地对搜索结果进行排序,而不是查看标题和摘要,尤其是在手机上。 “人们似乎真的很喜欢它。”

描述该工具的预印本首先于4月1日在arXiv预印本服务器上发布,并在本月举行的自然语言处理会议进行同行评审后被接受发布。研究人员已经免费提供了继承人代码,并提供了一个可运行的演示网站,任何人都可以使用该工具。

“我预计,这种工具将在不久的将来成为学术搜索的标准功能。实际上,鉴于需要,我惊讶地花了这么长时间才将其付诸实践。”西雅图华盛顿大学的信息科学家Jevin West说,他应《自然》杂志的要求对其进行了测试。他说:“这并不完美,但这绝对是朝正确方向迈出的一步。”

Weld受启发创建了TLDR软件,部分原因是他的同事在Twitter上分享的简短句子,以举报文章。与其他语言生成软件一样,该工具使用在大量文本上训练的深度神经网络。该团队包括成千上万与他们的标题相匹配的研究论文,以便网络可以学习生成简洁的句子。然后,研究人员对软件进行了微调以总结内容,方法是在新的数据集上对它进行训练,该数据集包含数千篇匹配摘要的计算机科学论文,其中一些论文是由论文的作者撰写的,而某些则是由一类本科生编写的。该团队已经收集了培训示例,以提高软件在其他16个领域的性能,其中生物医学可能会排在第一位。

TLDR软件不是唯一的科学汇总工具:自2018年以来,Paper Digest网站提供了论文摘要,但Weld指出,它似乎是从文本中提取关键句子,而不是生成新的句子。 TLDR可以根据论文的摘要,引言和结论生成句子。它的摘要往往是根据文章正文中的关键短语构建的,因此直接针对已经了解论文行话的专家。但是Weld说,该小组正在努力为非专业观众生成摘要。

研究人员还计划将该技术许可给出版商,并扩展其服务范围,以提供个性化的研究简报,以总结该领域的关键论文。 “我们正处于AI方法可以产生人们可以接受的水平的新颖摘要的地步,” Weld说。