210万篇最古老的Usenet帖子现在已经在线,任何人都可以阅读

2020-10-14 06:03:37

在Twitter帖子、Reddit论坛或Facebook群组之前的几十年里,就有了Usenet:这是一种早期的互联网、前Web讨论系统,人们可以在这里开始和加入与今天留言板非常相似的对话。Usenet成立于1980年,是杜克大学(Duke University)的两名学生创建的,他们想要在分散的、本地的服务器之间进行通信-它至今仍很活跃。

在Usenet上,人们谈论一切,从纳米技术科学到肥皂剧、葡萄酒和不明飞行物。安大略省的系统架构师Jozef Jarosciak在2000年第一次遇到Usenet,当时他在加拿大找到了一份全职工作,这要归功于那里的一份工作公告。

本周,Jarosciak将一些最古老的Usenet帖子上传到了互联网上。亨利·斯宾塞(Henry Spencer)的UTZOO网络新闻档案馆(UTZOO NetNews Archive)从1981年2月到1991年6月期间发布的大约210万篇帖子被存档在Usenet档案馆,供任何人浏览。

这个最新的档案转储是Jarosciak一个更大项目的一部分。上个月,他推出了Usenet Archive网站,作为一种独立于谷歌群的群组托管方式,Google群组也拥有Usenet等新闻组的档案。根据该网站的数据,它目前在1万个独立的Usenet新闻组中存档了3.17亿条帖子-Jarosciak估计它最终将拥有近10亿条帖子。

多伦多大学动物系的亨利·斯宾塞(Henry Spencer)将这些群体的档案保存在141盘磁带上。Jarosciak告诉我,UTZOO-Wiseman Usenet Tapes基本上是已经连接到互联网的各个大学的工作人员最早发布到互联网上的讨论。

斯宾塞和几位同事设法将磁带数据转换成.TAR(磁带存档)格式,多年来一直担任Usenet存档人员的Jarosciak将这些磁带转换成完全可搜索的PostgreSQL数据库,然后将其上传到Usenet Archives网站。在此过程中,除了Utzoo磁带归档的解析器之外,他还创建了PHP、JavaScript、Java和Python格式的转换器,并将它们作为任何人都可以使用的开源资源在他的Github上提供。

雅罗斯恰克说,这个古老帖子的宝库需要留给子孙后代。这些数以亿计的帖子读起来可能很有趣,但更重要的是,它们揭示了互联网本身早期阶段互联网社区的思维过程。它是大量重要的历史和与研究相关的内容。我和其他档案工作者都忽视了把这些旧的Usenet文本集从档案馆带回给公众的机会。