文章摘录基准:开源图书馆和商业服务

2020-06-24 00:31:13

PermalLink GitHub是5000多万开发人员的家园,他们一起工作,共同托管和审查代码、管理项目和构建软件。

报名。

我们对AutoExtract(OURS)、Diffbot、Newspper3k、可读性-lxml、Dragnet、boilertube和html-text的文章正文抽取质量进行了评估。我们发布评估数据集和脚本,并在白皮书中提供更多详细信息。

文章抽取是提取文章的特定字段(例如新闻或博客帖子)的任务,例如标题、文章正文、发表日期、作者等。文章抽取系统必须在任何网站上工作。在这里,我们只评估文章正文字段,因为这是最重要的字段之一,也是最难正确处理的字段之一。

自动提取精度=0.984±0.002召回=0.956±0.010 F1=0.970±0.005精度=0.470±0.037微分精度=0.958±0.009召回=0.944±0.013 F1=0.951±0.010精度=0.348±0.038管道精度=0.850±0.016召回=0.870±0.020 F1=0.860±0.016精度=0.006±0.006Dragnet精度=0.925±0.013召回=0.889±0.889 F1=0.925±0.860精度=0.020±0.030html-text精度=0.006±0。.017召回=0.994±0.001 F1=0.665±0.015准确度=0.000±0.000报纸精确度=0.917±0.014召回=0.906±0.018 F1=0.912±0.014准确度=0.260±0.032可读性精确度=0.913±0.014召回=0.931±0.016 F1=0.922±0.014准确度=0.315±0.035x路径文本精确度=0.246±0.016召回=0.992±0.001 F1。

评估不需要任何依赖项。Requirements.txt中列出的依赖项仅用于重新生成开源文章提取库的输出文件。请参阅下面的安装详细信息。

所有文件都应该有相同的密钥。总体真相在Ground-truth.json中,来自不同系统的预测在output/*.json文件中。

HTML文件位于html文件夹中。它们是通过默认禁用JS的Splash Headless浏览器获取的。它们是gzip压缩和utf-8编码的。

所有页面的屏幕截图都不在回购中,它们可以在githubin的“发布”部分获得:https://github.com/scrapinghub/article-extraction-benchmark/releases。

除了对AutoExtract和Diffbot服务进行基准测试之外,我们还对几个直接处理HTML文件而不需要渲染或外部资源的开源库进行了基准测试:

这些库的输出已经存在于输出/*.json文件中的repo中,它们是使用提取器/run_*.py文件生成的。

所有依赖项都在requirements.txt中。请注意,dragnet可能无法在第一次尝试时安装,因为您需要安装numpy和Cython,并具有libxml2头文件(在Ubuntu上为libxml2-dev)。

boilertube需要自定义安装:使用python2,您还需要java(例如,在ubuntu中安装default-jre),使用pip install-e git+https://github.com/misja/python-boilerpipe.git@ab3694d7bf695b73f0684a028e70aa816d63e6cb#egg=boilerpipe安装它。

我们报告精确度、召回率、F1、准确度及其用bootstrapp估计的标准偏差。有关更多详细信息,请参阅技术报告。