互联网档案馆已经归档并确认了900万篇开放获取期刊文章--接下来的500万篇还在变得越来越难。
开放获取期刊,如“新神学评论”(ISSN:0896-4297)和“血液学开放杂志”(ISSN:2075-907X),多年来一直在网上免费提供研究论文。只需快速点击或简单查询,世界上任何地方的学生都可以访问他们的文章,勤奋的维基百科编辑可以根据关于维生素缺乏和献血的原始文章来核实事实。
但有些期刊,比如这些书目,不再可以从出版商的网站上获得,只能通过互联网档案馆的退货机获得。自2017年以来,互联网档案馆与其他机构一起,专注于将所有学术文献存档,并使其永久可用。
万维网使学者们比以往任何时候都更容易合作、辩论和分享他们的研究成果。不幸的是,今天的网络结构意味着内容可以同样容易地消失:截至今天,上述两种期刊的官方出版商网站和DOI重定向都无处可去,或者已经被无关的内容所取代。
警惕的图书馆员几十年前就看到了这个问题,当时印刷到数字的迁移刚刚开始。他们坚持要求商业出版商与签约数字保存组织(如Portico、LOCKSS和CLOCKSS)合作,以确保长期访问昂贵的期刊订阅内容。还努力保护开放文章,如公共知识项目(Public Knowledge Project)的OJS期刊私人LOCKSS网络和像SciELO网络这样的国家托管平台。但是,所有学术文章的一部分仍在继续出现问题。
根据Mikael Laakso,Lisa Matthias和Najko Jahn最近的一篇预印文章,研究人员发现,在过去的20年里,176种开放获取期刊已经从出版商的网站上消失了。这些期刊来自世界所有地区,代表了所有主要学科--科学、人文科学和社会科学。开放获取期刊目录索引了14000多种开放获取期刊,这篇论文指出,另有900种期刊处于不活跃状态,面临消失的危险。这份预印本触动了人们的神经,受到了“自然”和“科学”杂志的新闻报道。
2017年,在安德鲁·梅隆基金会(Andrew Mellon Foundation)和卡勒/奥斯汀基金会(Kahle/Austin Foundation)的资助下,互联网档案馆启动了一个项目,重点是保存所有可公开获取的研究文件,特别是开放获取的材料。我们的第一项工作是量化问题的规模。
在1996年以来发表的1480万篇已知的开放获取文章中,互联网档案馆已将其中910万篇存档、识别并通过Wayback Machine提供(上图中的“亮”绿色)。在开放获取的行话中,我们只计算“黄金”和“混合”文章,我们预计这些文章可以直接从出版商获得,而不是预印本,比如在arxiv.org或机构知识库中。根据保管员登记处(图表中的“暗橄榄”)的记录,另有320万件被认为是由一个或多个合同保护组织保存的。除非出版商变得不可访问(在这种情况下,它们被“触发”并变为可访问),否则任何人都不能访问这些副本。
这使得至少240万篇开放获取文章面临从网络上消失的风险(图表中红色的“无”)。虽然其中许多仍然在出版商的网站上,但事实证明,这些很难存档。
我们的目标之一是尽可能多地将开放网络上的文章归档,并跟上每天发布的不断增长的新文章流。另一种方法是回顾1996年的Wayback Machine中海量的PB级网络内容,找出我们可能已经拥有但不容易找到或发现的任何内容。这两个项目都适用于软件自动化,但HTML和PDF的演变特性及其不同的字符集和编码使它们变得更加困难。为此,我们不仅把这个项目作为一个技术项目,而且还把它作为一个协作项目,旨在为支持开放学术的分布式基础设施增加另一块内容。
为了扩大我们的覆盖范围,我们建立了一个可编辑的目录(https://fatcat.wiki)),它具有开放的应用编程接口,允许任何人投稿。由于软件是免费的、开源的,就像数据一样,我们邀请其他人重用并链接到我们存档的内容。我们还对许多文献进行了索引和搜索,以帮助管理我们的工作,并帮助其他人查找我们是否存档了特定的文章。我们想让学术材料永久可用,并以新的方式可用--包括通过用于分析和“元研究”的大型数据集。
我们还想感谢支持这项工作的许多伙伴关系和合作,其中许多是开放学术基础设施的关键部分,包括ISSN、DOAJ、LOCKSS、Unpaywall、语义学者、CiteSeerX、CrossRef、Datacite等。我们也要感谢许多为这项工作做出贡献的互联网档案馆工作人员和志愿者,包括布莱恩·纽博尔德、马丁·齐根、保罗·巴克莱斯、杰斐逊·贝利、长桥健二、大卫·罗森塔尔、维多利亚·赖克、埃伦·斯珀图斯等人。
如果您想参与这个项目,请联系互联网档案馆:webservices@archive ve.org。