报纸导航器数据集:1600万页历史报纸

2020-05-09 16:40:32

下载PDF摘要:编年史美国是国家数字报纸计划的一个产品,该计划是国会图书馆和国家人文基金会的合作伙伴关系,旨在将历史报纸数字化。到目前为止,超过1600万页的美国历史报纸已经数字化,以记录美国,并配有高分辨率图像和机器可读的METS/ALTO OCR。记录美国用户相当感兴趣的是一个语义化的语料库,其中包括提取的视觉内容和标题。为了实现这一点,我们引入了一个视觉内容识别模型,该模型针对照片、插图、地图、漫画和社论漫画的包围框注释进行了培训,这些注释是作为国会图书馆的Beyond Words众包计划的一部分收集的,并增加了其他注释,包括标题和广告的注释。我们描述了我们的管道,它利用这个深入的模型来提取7类视觉内容:标题、照片、插图、地图、漫画、社论漫画和广告,其中包括来自METS/ALTO OCR的字幕等文本内容,以及用于快速图像相似性查询的图像嵌入。我们报告了从编年史上的美国语料库中运行管道的1630万页的结果,并描述了由此产生的报纸导航器数据集,这是有史以来从历史报纸中提取的视觉内容的最大数据集。新的报纸导航器数据集、优化的可视内容识别模型和所有源代码都放在公共领域中,以便不受限制地重复使用。