如何将您的实验笔记本数字化

2020-09-28 20:15:58

当冠状病毒大流行关闭圣保罗的明尼苏达大学时,植物病理学家琳达·金克尔(Linda Kinkel)的实验室团队四处寻找可以在家里完成的任务。他们意识到有一项工作是他们一段时间以来一直想做的:将团队30年前收集的纸质实验室笔记本数字化。“COVID确实是促使我们致力于数字实验室笔记本的原因,”技术人员安德鲁·曼(Andrew Mann)说。“我们所有人都是孤身一人,需要接触以前学生的实验,这样我们才能写助学金,计划下一步的实验。”

研究小组将他们的旧实验室笔记本数字化的原因有很多。可以备份数字记录,使其不受洪水和火灾的影响,并对其进行加密以防止被盗。它们不需要物理空间,并且可以由来自不同位置的多个团队成员同时使用。扫描过程使文本具有可读性、可访问性并适合存档;如果软件包含光学字符识别(OCR),则通常也可以搜索扫描的打字文本-尽管OCR并非没有错误,因此生成的文本通常需要手动更正。

一些研究人员使用智能手机应用程序或物理扫描仪扫描笔记本电脑;另一些研究人员将这项工作外包给专业公司。“数字化正在增加,特别是在COVID之后,”英国泰恩河畔纽卡斯尔附近的Cleardata营销总监简·卡希尔(Jan Cahill)说,该公司将图书和文件数字化。Mann说,由于大流行限制而关闭的实验室突出了让每个团队成员同时远程访问文件的好处。对于加州伯克利劳伦斯伯克利国家实验室的计算机科学家格伦·洛克伍德来说,数字化就是提供心灵的安宁。“它只是帮助我在晚上睡得更好,”他说。

曼和他的同事们采取了一种朴实无华的方式将他们的旧笔记本数字化:他们使用智能手机。这些藏品包括数十本装订的标准大小的实验室笔记本,黄色纸张和红色封面,当实验室在大流行限制措施开始时关闭时,每个团队成员都带了几本回家。用智能手机扫描每个页面不是很快,但因为每个实验室成员都有一个,所以它是有效的:从来没有排队访问物理设备。曼恩说,所需要的只是时间--每个笔记本需要几个小时。

在选择扫描应用程序时,一些最重要的考虑因素是它的OCR软件的可靠性和语言特异性(如果它有这个功能的话)。即使使用准确率为98%的软件,一张包含2000个字符的打印页仍可能产生约40个需要手动更正的错误。另一个考虑因素是这款应用程序自动裁剪图片的效果如何,以及你是否可以在拍照后立即轻松手动调整图片。一个流行的选择是Adobe Scan,它提供19种语言的OCR,包括英语、西班牙语、日语和韩语,以及繁体和简体中文字符。这款应用程序是免费的,可以在Android和Apple iOS操作系统上使用。

曼恩使用的是苹果公司的免费Notes应用程序(仅限iOS),该应用程序不提供OCR,尽管它确实允许他在电脑上裁剪生成的图像。有一种设置会自动获取并保存扫描,但是通过切换到手动设置,您可以在将每次扫描保存到正在进行的文件之前对其进行裁剪,这比以后执行此操作效率更高。其他免费应用包括Microsoft Office Lens和Genius Scan,这两款应用都有Android和iOS版本,都有OCR功能。或者,用户可以付费购买应用程序,其中一些应用程序具有更多语言的OCR功能。

该小组将每个实验笔记本保存为单个PDF。曼恩发现,第一页和最后一页很难用智能手机扫描清楚,因为脊椎足够大,这些页面不会平躺。Mann说,生成的文件缺乏纸质笔记本中物理选项卡提供的轻松导航。

尽管智能手机扫描很简单,洛克伍德还是买了一台桌面扫描仪来驱动他的数字化项目。作为一名计算机科学家,他的记录多年来一直是数字的,但在材料科学的研究生工作期间,他一直保存着一丝不苟的笔记本。他说:“作为一名学生,我接受的培训是确保所有东西在来源和知识产权方面都是防弹的。”这意味着要有一本有复印件的实物实验室笔记本,每一页都要签名并注明日期。由于机构政策,原件仍留在他的研究生室,但洛克伍德保留了未装订的复印件,他多年来一直在公寓之间运送这些复印件。他决定将其扫描为“一个晚上和周末的项目”,这样他就可以最终摆脱实体笔记本-这项任务仍在进行中。

桌面扫描仪或包括扫描功能的打印机的价格可能在200美元到600美元之间。洛克伍德花了大约200美元购买了一台带有自动文档进纸器的Brother MFC L2750DW扫描仪,他建议以彩色和机器可能的最高分辨率进行扫描-在他的情况下,每英寸600点(Dpi)。“在那些东西上便宜是没有意义的,”他说。他的一些笔记是用铅笔写在薄薄的笔记本纸上的,在较低分辨率的扫描中无法辨认。因为他的笔记是手写的,所以OCR用处不大,产生的文件也很大:一本笔记本116页的扫描结果接近190兆字节。

洛克伍德说,当页面一致且均匀时,扫描需要几分钟的时间。但胶带材料和不均匀的页面大小会使这一过程变得复杂,使其变得更加手动。他表示:“事实证明,这比我预期的劳动密集度要高得多。”

发育生物学家凯利·史密斯(Kelly Smith)和她的团队在一年前将实验室搬到澳大利亚墨尔本大学时,使用了理光MP C4503,一种组合式复印机-打印机,将协议和关键实验数字化,因为她不得不把物理副本留在以前的机构。然而,自从搬家以来,她的实验室已经放弃了纸质笔记本,转而使用加利福尼亚州卡尔斯巴德的LabArchives的电子系统。史密斯说:“能够共享数据并立即访问它是一件令人敬畏的事情。”

扫描公司,如Cleardata、加利福尼亚州弗里蒙特的eRecordsUSA和纽约州怀特普莱恩斯附近的Digiscribe,提供了第三种数字化选择。这类公司通常提供OCR和辅助服务,如质量控制、元数据附件和原始笔记本的机密粉碎。

例如,eRecordsUSA的共同所有者潘卡吉·夏尔马(Pankaj Sharma)说,eRecordsUSA扫描各种材料,从历史书籍和个人文档到杂志的旧目录。该公司每年处理大约12个项目,每个项目平均150本书,但每个订单可以扫描多达1500件物品。夏尔马建议以300 dpi的分辨率进行彩色扫描。

因为eRecordsUSA主要处理历史文档,所以它有专门为精致装订设计的设备,包括阻止图书完全打开的V型摇篮扫描仪,以及头顶扫描仪。折叠、装订或用胶带装订物品的每一页都要扫描两次:一次在其原始位置,另一次在物品展开或翻转后。员工对原件逐页进行比较,以便进行质量控制。“大多数书都是手写的,”夏尔马说。“我们还没有发现OCR非常有效。”

使用这类公司的成本随时间线、笔记本的大小、页数、装订类型以及笔记本的页面是松散还是不规则等因素而异。一些公司为大批量项目提供折扣;例如,eRecordsUSA将在进入其余项目之前将样书数字化以供批准。夏尔马说,该公司还可以处理医疗数据、财务文件和诉讼记录等机密信息。他估计,一本100页的标准尺寸实验室笔记本的价格为75-100美元。

卡希尔说,Cleardata每月总共扫描约500万张图像,包括实验室笔记本和其他物品。该公司可以将扫描输出为任何所需的文件格式(PDF、JPEG或TIFF)或分辨率(默认为300dpi),并且每个文档都由两个人检查以进行质量控制。该公司还提供文件收集和装箱服务。卡希尔说,数字化完成后,笔记本“要么可以归还,储存在我们的安全存档设施中,要么可以用工业粉碎设备销毁”。

每本书的价格从25 GB到200 GB不等,这取决于物品的特性以及扫描的是彩色还是黑白。Cleardata的最小订单是500 GB(645美元)。

对曼恩来说,扫描旧的实验室笔记本提供了意想不到的好处。他是该组织的新成员,2月份开始工作,就在大流行关闭他的实验室之前。通读它们揭示了他可能没有从团队的文件中获得的洞察力。他说:“翻阅我从未见过的所有这些人的实验室笔记本--实际上每一页都看了一遍,这是一种很好的感觉。”“我觉得我对这项研究的了解要多得多。”