伯恩收藏:在线搜索比你想象的要古老

2020-07-10 06:02:29

查理·伯恩(Charlie Bourne)在谷歌(Google)之前的40年里一直是计算机化搜索方面的专家。Chm最近完成了他独特的材料集的编目工作,这些材料记录了自20世纪50年代以来在线搜索和信息系统的历史,并得到了国家档案馆(National Archives)的慷慨拨款。

我们中的许多人认为,在线检索和浏览信息是在20世纪90年代随着网络的兴起而出现的,它立即将我们从翻阅尘土飞扬的卡片目录迅速推向现代搜索引擎的毫秒响应时间。年长的电脑业内人士可能隐约听说过一两个专门的早期计算机化服务,比如为记者和律师提供的LexisNexis,或者昂贵的Dialog。

真正的历史更悠久、更丰富。全文在线搜索的原型是在20世纪60年代初-部分是通过查理的工作-并在十年结束时商业化。但是,在计算机出现之前,机器辅助搜索可以一直追溯到穿孔卡片分拣机。它们构思于19世纪30年代,建造于19世纪90年代,当时卡片目录和其他人工检索技术取得了巨大进步。20世纪20年代,伊曼纽尔·戈德堡(Emmanuel Goldberg)的微缩胶片搜索引擎内置在办公桌上,开创了实时互动搜索的先河。

到了20世纪50年代末,制造商向政府、公司和军方出售了一种鲁布·戈德伯格式的不同存储和检索技术的组合:能够在缩微胶片、磁介质或集成到穿孔卡片中的缩微胶片上每秒搜索330页的快速选择器,以及各种看起来像未来主义的观众。其中一些已经是计算机控制的,主要的会议开始围绕计算机将如何很快给整个领域带来革命性的变化。

这就是计算机大师哈里·赫斯基(Harry Huskey)的学生查理·伯恩(Charlie Bourne)被他在加州大学伯克利分校(UC Berkeley)的另一位教授道格拉斯·恩格尔巴特(Douglas Engelbart)转向信息检索的背景。正如我们将看到的那样,他在这两个领域的交汇处度过了他漫长职业生涯的余生。

在线信息的早期历史对计算人员来说仍然陌生的一个原因是,其中大部分都是在图书馆学研究和像信息科学与技术协会(ASIS)这样的专业组织的支持下发生的。即使在最近几十年,计算和信息检索专业基本上是平行运行的,偶尔也会出现交叉受精的时刻-就像NSF资助的数字图书馆项目(Digital Library Project)导致了谷歌。1个。

查理·伯恩(Charlie Bourne)的收藏,其中包含了来自他自己的各种工作和他的书籍研究的材料,提供了这两个领域共同历史的真正独特的编年史。这些藏品的处理得到了国家档案馆国家历史出版和记录委员会(NHPRC)提供的查阅历史记录拨款的支持。NHPRC支持促进获取美国历史记录的项目,以鼓励人们了解我们的民主、历史和文化。

毕业后,查理在斯坦福研究所(现在的SRI国际)找到了一份工作,在那里他评估并编写了一些检索系统的规范:为空军处理300万条记录的缩微胶片系统,协调收集和翻译苏联集团文献的自动化系统,以及清点来自敌方装备的各种舰载无线电信号的海军数据库,等等。

他的老教授道格·恩格尔巴特(Doug Engelbart)很快就搬到了SRI,1963年,查理帮助他做了一个开创性的实验,他在2015年为CHM撰写的口述历史中描述了这一实验,节选在本博客的顶部。

Charlie为可能是最早的现代在线搜索示例编写了规范,在该示例中,您可以在远程计算机上搜索文档的全文。林恩·柴丁做了编程。远程计算机是为圣人核警报系统定制的庞然大物之一。恩格尔巴特已经安排通过他的资助者,ARPA的计算巨头J.C.R.Licklider使用它。

这项测试效果非常好,即使允许布尔限定符,比如34;和34;以及34;或者34;或者。利克利德本人也在研究后来成为他1965年出版的“未来图书馆”(Libraries Of The Future)一书的内容。他预测,到2000年,所有文献都将实现在线和可搜索,编目的繁重任务将因弱的人工智能而变得轻松起来。“未来图书馆”预测,到2000年,所有文献都将实现在线和可搜索,而编目的繁重任务将因弱小的人工智能而减轻。

在1963年,计算机化搜索本身并不新鲜。他们从SRI测试的所有搜索功能-以及其他许多功能-以前都曾在使用穿孔卡的批处理系统上演示过。这些包括自然语言查询、相关性评分、词干和通配符搜索、邻近度和语音搜索、交替和加权搜索词,以及对同义词的自动搜索。最新的是实时搜索,在与计算机的实时来回会话中,而不是装满一副牌并等待结果。

查理本人一直很忙,1963年作为一名年轻的父亲从斯坦福大学获得硕士学位,并完成了他的第一本书。“信息处理方法”荣获美国文献学会(ADI)年度最佳图书奖。他于1966年离开SRI,担任信息总公司(Information General Corporation)副总裁,同时在信息行业提供广泛的咨询服务,就像他漫长职业生涯的大部分时间所做的那样。

早期的客户之一是中央情报局(CIA),他评估了一个巨大的计算机化系统,用于将截获的俄语文件自动翻译成英语(当时还没有完全准备好)。其他将包括斯坦福大学图书馆、联合国教科文组织、国家科学院、国会图书馆、国家农业图书馆、美国专利局、联合国和中央情报局。查理评估的一些早期系统是完全计算机化的,但那些处理图像的系统通常包括模拟组件,如缩微胶片。直到20世纪80年代,计算机内存都太贵了,无法使高质量的图形实用化。查理还活跃在专业组织中,担任ASIS的主席,在那里他帮助向计算和信息科学的同事展示道格·恩格尔巴特的工作。

1971年,他成为UCB图书馆学和信息研究学院(现在的信息学院)的教授,同时也是该大学创新的图书馆研究所的负责人。他监督了将加州大学图书馆卡片目录上网的开创性工作。他在20世纪80年代出版的“支持图书馆学和信息服务的技术”一书中就借鉴了这些经验。

1977年,他跳槽到开拓性的在线信息提供商Dialog Information Services,一路晋升为综合信息部副总裁。Dialog是信息科学和计算工业交叉的一个关键早期例子。创始人罗杰·峰会曾是洛克希德导弹和空间公司20世纪60年代中期信息科学实验室(1964年)的一部分。他把自己关于迭代搜索的想法--用户和计算机之间的对话--构建成了洛克希德公司的一个独立的在线搜索部门。(这与现代搜索引擎的“尽力而为”方法大不相同,在现代搜索引擎中,你通常需要运行新的搜索来提炼不相关的结果)。Dialog授权访问各种字段中的主要数据库,您可以使用其强大的工具进行搜索。虽然总体信息量远小于现代网络上的信息量,但它的相关性要强得多,而且组织得也更好。

但Dialog经常超过相当于每小时50美元的价格。即使计算机设备在60年代中期到90年代初价格暴跌,订阅越来越多的数据库仍然是一大成本。Dialog和LexisNexis等竞争对手是针对企业预算的。只有在网络时代,这种深度的、一般性的搜索才会渗透到我们其他人身上,无论是使用Infoseek、AltaVista和Google这样的关键字搜索引擎,还是使用更传统的分层目录,比如早期的Yahoo!或者后来的维基百科。

查理于1992年从Dialog退休,在准备第三本书的同时继续他的咨询工作。他与Trudi Bellardo-Hahn合著的“在线信息服务史,1963-1976”于2003年出版。它获得了信息科学与技术协会(ASIS&;T)的年度图书奖。查理住在门洛帕克。

详细的查找援助查尔斯·伯恩收藏在这里。收集的内容范围从1947年到2016年,包括与伯恩在数据库和信息检索行业的开创性职业生涯有关的材料,包括他在斯坦福研究所(现为SRI国际)、加州大学伯克利分校和对话信息服务公司的工作。该藏书包括伯恩的个人项目文件,其中包括与他的专业工作相关的论文、演示文稿和其他活动,包括他的书“在线信息服务史”,以及未出版的“图书馆运营工作成本分析”。该书还收藏了伯恩的主题文件,内容涉及一系列主题,包括开发搜索系统的组织、在该领域工作的人员以及数据库供应商。这些主题文件包括技术报告、说明手册、内部报告、剪报、文章、通信、会议记录以及一些图像和录音。此外,还有大量与伯恩的计算机和信息科学兴趣相关的丛书、会议记录和书籍。来自20世纪50年代末和60年代关于计算机搜索和浏览的一些会议的材料。

除了论文,该书还包括几种计算机前信息检索介质的实例,例如带有嵌入缩微胶片的穿孔卡片。

加州大学伯克利分校信息学院的Michael Buckland是一位领先的信息科学家,他把查理·伯恩介绍给我,并向查理建议他把自己的藏品捐给CHM。巴克兰德博士曾担任我们永久展览“革命”网络画廊的“电脑前世界大脑”的顾问,并因其对蔡司-依康公司的伊曼纽尔·戈德堡的开创性研究而享誉国际。戈德堡实际建造的20世纪20年代的缩微胶片搜索引擎预示着范尼瓦尔·布什(Vannvar Bush)的Memex概念在十多年内非常相似。

50年前,当我第一次见到查尔斯·伯恩(Charles Bourne)时,也就是1969年,他已经是文献和信息科学界的领军人物。他积极参与即将于今年秋天在旧金山举行的美国信息科学学会(ASIS)年会,担任大会主席。大会反映了他的个人观点,会议的计划有两个特别的重点:努力吸收与亚欧首脑会议有关的其他专业团体的与会者,并纳入对信息传播和交流的新技术的关注。后者包括对在线系统的关注,以及如何将与会者与他们感兴趣的会议相匹配。他当时也已经是亚细亚国家的候任总统,这一地位是同龄人尊重的独特标志。后来,当他在加州大学伯克利分校(University of California,Berkeley)图书馆和信息研究学院(School Of Library And Information Studies)担任教授时,我有幸成为他的同事之一,在那里,他领导了一个创新的、多学科的多校园研究组织-图书馆研究单位(Library Research Unit),该组织从事信息存储和检索系统的广泛有用研究。

查理的名声不仅是因为他的能力,也是因为他组织得很好。他的工作是找出还有谁对文档管理、数据管理和图书馆自动化感兴趣,特别是新兴技术的应用,包括穿孔卡片和摄影,以及数字技术的稳步扩大使用。为SRI工作,他需要了解他正在解决的任何问题的最新技术水平。无论如何,他的天性就是想要熟悉他工作的环境。和蔼可亲、彬彬有礼、广为人知的“查理”,他广博的知识很快就使他成为“去找的人”,他作为一名讲师、演讲者和顾问都很受欢迎。他曾被国内外广泛的机构聘请进行应用研究和咨询。

从早些时候开始收费

个人文件通常是杂乱无章的,不完整的,实际上,是一堆折衷的乱七八糟的东西。当涉及的人有三个特征时,理想的结果可能会产生:第一,这个人应该保留一个集合,即使不是详尽的,至少在其覆盖范围内是全面的。换句话说,保留的论文应该相对完整,这需要在覆盖范围的差距和导致收藏品详尽而令人精疲力竭的打包心态之间进行切换。其次,他或她应该了解论文所涵盖的主题以及论文与整体的关系。第三个要求是论文要组织得很好。这些品质并不常见,但查理·伯恩的存单在这三个方面都很有说服力。

因此,它们是历史文献的档案,是未来最丰富和最有前途的资源。但这不仅仅是一个承诺。证据已经迫在眉睫,因为查尔斯·伯恩的论文的历史价值已经得到了非常充分的证明,因为它们构成了他与特鲁迪·贝拉多·哈恩(Trudi Bellardo Hahn)合著的百科全书式的在线信息服务历史(1963-1976)的基础(麻省理工学院出版社,2003年)。由于计算机历史博物馆的热情好客,查尔斯·伯恩的职业生涯所带来的好处将永远持续下去。