你能帮我们把19世纪的书变成可搜索的吗?

2020-08-22 14:31:30

1847年,弗雷德里克·道格拉斯创办了一份倡导废除奴隶制的报纸,一直持续到1851年。内战结束后,有一份为自由奴隶服务的报纸《自由人记录》(The Freedman‘s Record)。互联网档案馆正在将这些作品和更多作品放到网上,供公众免费查阅。但有一个问题:

我们的光学字符识别(OCR)虽然是商业上最好的OCR技术,但在识别旧文档中的文本方面并不是很好。

以1847年的这份报纸为例。这些图像不是很棒,但一个人可以阅读它们:

问题是,我们的计算机的光学字符识别技术搞错了,列被搞混了。

我们需要的是“文化科技”(对金融科技的即兴演唱)和文化科技人员从事重要而有用的项目-这是我们需要的,但很可能得不到私募股权兴趣的喷涌而来的资金。在数字人文领域,有数以千计的专业人士面临着类似的挑战,我们希望用我们可以应用于文化遗产材料的工业级技术来补充他们的工作。

其中一个这样的项目将是致力于将19世纪的文件完全数字化的技术。我们需要改进OCR以启用全文搜索,但我们还需要帮助将文档分割为栏目和文章。互联网档案馆有大量的测试材料,数以千计的人一直在上传更多的文件。

我们没有一个很好的方法来将这些项目的工作与互联网档案馆的处理流程结合起来,所以我们也需要那里的帮助和想法。

也许我们可以举办一个“文化科技的档案馆之夏”或…之类的活动。只是点子而已。*可能会与希望围绕文化技术…建立项目和课程的大学部门合作。如果你有想法或技能要贡献,请在这里发表评论或发送电子邮件到info@archive ve.org,其中一些信息。