研究人员用DNA储存“绿野仙踪”--翻译成世界语

2020-07-26 23:54:52

DNA可以存储比磁性硬盘多得多的数据,但由于遗传物质容易出错,这项技术受到了限制。

德克萨斯大学奥斯汀分校的科学家们已经想出了一种在DNA链中存储信息的方法,同时也纠正了这些错误。

为了证明这一点,他们把整个“绿野仙踪”(翻译成世界语)放入DNA链中,比以前的方法更准确。

当旅行者号宇宙飞船在1977年发射,准备研究我们太阳系的外部界限时,他们带来了两张金色的留声机唱片,每张唱片都包含了一组代表地球上生命的声音和图像。但在未来,完美的下一代太空舱可能会在我们体内找到。

这是因为DNA存储数据的效率是笔记本电脑磁性硬盘的数百万倍。由于DNA可以比硅更密集地存储数据,你可以将世界上所有的数据都挤进几克的DNA中。

得克萨斯大学奥斯汀分校分子生物科学副教授伊利亚·芬克尔斯坦(Ilya Finkelstein)在接受“大众力学”采访时表示,因为DNA已被所有生命选择为信息存储媒介……事实证明它非常坚固。在我们的磁存储变得过时之后很久,大自然仍将使用DNA。

芬克尔斯坦是德克萨斯大学奥斯汀分校一个团队的成员,该团队正在推动基于DNA的存储方法的极限。虽然这个位于分子生物学和计算机科学交汇处的研究领域自20世纪80年代就已经存在,但科学家们一直在努力寻找一种方法来纠正DNA可能容易出错的错误。

在本周发表在“美国国家科学院院刊”上的一篇新论文中,芬克尔斯坦和他的公司详细介绍了他们的新纠错方法,并在一本经典小说上进行了测试。他们能够存储全部翻译成世界语的“绿野仙踪”,比以前的DNA存储方法更准确。我们正走在通往数据存储未来的黄砖路上。

德克萨斯大学奥斯汀分校的研究人员当然不是第一个将艺术品编码到DNA链上的人。

早期的DNA存储方法实际上可以追溯到1988年哈佛大学的一项实验。这些科学家设法将艺术家乔·戴维斯的一件作品的图像存储在大肠杆菌DNA序列中。解码后,它组成了一个5乘7的矩阵,描绘了一个关于生命和以女性为中心的地球的令人兴奋的古代符文。

到了2011年,英国欧洲生物信息学研究所的科学家们也掌握了这一做法。生物信息学技术人员尼克·戈德曼(Nick Goldman)一直在同情他的同事们,他们如何将大量的基因组序列存储在全世界一直在生产的大量基因组序列上。他告诉“自然”杂志,起初只是一个笑话,出于挫败感。

我们想,怎样才能阻止我们使用DNA存储信息呢?高盛说。两年后,该团队成功地将五个文件编码到DNA链上,其中包括小马丁·路德·金的著名作品“我有一个梦想”和莎士比亚的十四行诗。

2016年11月,麻省理工学院(Massachusetts Institute Of Technology)的衍生公司Catalog将罗伯特·弗罗斯特(Robert Frost)著名诗歌“未走的路”(The Road Not Take)中的144个单词永垂不朽。这项工作代表了大约1千字节的数据。

同年,来自微软和华盛顿大学的一组研究人员将200兆字节的数据匹配到DNA长度上,包括整个《战争与和平》。2019年3月,他们甚至发明了第一个自动系统,用于存储和检索制造的遗传物质中的数据。

今天,其他主要的科技公司也在这一领域工作,包括IBM和谷歌。高度保密的美国情报高级研究项目活动-政府版的DARPA,但针对间谍-甚至投资于这项工作。这些研究人员设想的未来是,一些最珍贵但很少被访问的数据可以存储在DNA小瓶中,只有在需要时才能从实验室凉爽、黑暗的存储器中取出。

磁性硬盘驱动器是当今计算机中最流行的存储数据的方法之一。在里面,有一对旋转的圆盘,叫做盘片,类似于一张CD。它们将数据以1和0为一组存储在圆形表面上,这称为二进制码。以主轴为中心,盘片旋转,电流在表面读取和写入数据。电子元件为整个操作提供动力。

同样,基于DNA的存储需要编码和解码方案。在这种情况下,科学家根据四种核苷酸碱基--腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)和胸腺嘧啶(T)--通过化学方法创造出具有某些特性的合成DNA,它们构成了遗传物质的梯状螺旋形状。

这篇新论文的另一位合著者约翰·霍金斯(John Hawkins)解释说,因为DNA中有四个构件,而不是磁性硬盘中的二进制1和0,所以遗传存储方法的密度要高得多。他告诉“大众机械”说,一茶匙DNA包含的数据如此之多,以至于需要大约10个沃尔玛超级中心大小的数据中心才能使用当前的技术来存储。或者,正如一些人喜欢说的那样,你可以把整个互联网放在一个鞋盒里。

不仅如此,DNA也是面向未来的。霍金斯回忆说,早在20世纪90年代,CD是占主导地位的存储方式,他们承诺CD的存储可以永远持续,因为塑料可以(但划痕可能是毁灭性的)。另一方面,存储在DNA上的数据可以持续数十万年。事实上,有一个完整的科学领域叫做考古遗传学,它探索DNA的长寿来理解古代历史。

此内容是从{embed-name}导入的。您可以在他们的网站上找到不同格式的相同内容,也可以找到更多信息。

除此之外,一旦储存起来,DNA几乎不需要任何维护。毕竟,化石在地下生活了数百万年后仍然保存着DNA序列。DNA存储也不需要任何能量--只是在一个凉爽、黑暗的地方闲逛,直到有人决定访问它。但霍金斯说,最大的优势是我们读写DNA的能力永远不会过时。

例如,如果我想去读一篇我小时候写的文章,我就需要先去博物馆找一台那个时代的能用的电脑,而我现在才30多岁,他解释说。但是DNA在这方面是独一无二的面向未来的,因为我们就是由它构成的。只要人类是由DNA组成的,我们就会一直希望身边的机器能读懂它。

但是,像所有的数据存储方法一样,DNA也有一些缺点。最重要的前期障碍是成本。霍金斯说,目前的方法与1980年苹果硬盘20的成本相似。当时,大约20兆字节的存储空间--或者说下载15分钟视频所需的数据量--大约1500美元。

除此之外,DNA也容易出错。回想一下组成DNA阶梯的四个核苷酸碱基。平均而言,DNA在每100到1000个核苷酸中会引入一个错误。它们可以采取三种形式:替换、插入和删除。

在替换突变中,一串核苷酸中的一个字母可能会被换成另一个。在下图中,胞嘧啶被胸腺嘧啶取代。DNA链的长度保持不变。然而,在插入或缺失时,DNA会获得一个额外的核苷酸碱基,或者移除一个碱基。但与计算机代码中的错误不同的是,在移除的碱基曾经居住的地方没有留下任何空间,当你去解码存储在DNA中的数据时,这可能很快就会出现问题。

霍金斯喜欢把这比作英语单词:删除字母“world”就会变成单词。此外,插入一个单词就会把它变成“剑”。正确阅读“剑”中的“世界”是很困难的,这不仅是因为“剑”仍然是一个有效的英语单词,还因为所有的字母都被调换了位置,这不仅是因为“剑”仍然是一个有效的英语单词,而且还因为所有的字母都被调换了位置,这不仅是因为“剑”仍然是一个有效的英语单词,而且还因为所有的字母都被调换了位置,这不仅是因为“剑”仍然是一个有效的英语单词,而且还因为所有的字母都被调换了位置,这不仅是因为“剑”仍然是一个有效的英语单词,而且因为所有字母都被调换了。

其他形式的DNA存储通过将数据的代码重复10到15次来克服这些复制错误-但这是对空间的巨大浪费。然而,在团队的研究论文中描述的新方法中,他们将数据构建成晶格形状的DNA,其中每一位数据都加强了下一位数据,因此只需要读取一次。

他们还开发了一种算法,可以同时克服插入、删除和替换错误,使基于DNA的数字数据存储更加高效。这就是为什么团队可以如此容易地将绿野仙踪安装到DNA链上,而不需要多次复制A、C、T和G碱基的组合。

展望未来,基于DNA的存储的潜力几乎是无限的。芬克尔斯坦提出了一种未来的愿景,在那里,用数据编码的DNA可以被合并到其他材料中。

他说,在一个例子中,研究人员在一块3D打印的塑料上浸泡了DNA链,这些DNA链包含了正在打印的塑料对象的对象文件。当塑料通过打印机时,它可以释放DNA,以循环过程重新创建文件。

或者,你可以使用基于DNA的数据存储作为一种方式来对没有自己遗传物质的无生命物体进行法医发现。比方说,你在一架飞机上涂上一种含有DNA的材料,上面有建造飞机特定部分的完整说明。如果飞机出了问题,最后坠入海中,由于太阳的紫外线,涂层中包含的DNA会在一定程度上降解。

但换言之,这种退化只是记录飞机发生了什么的信息的一种方式。即使只有一块残骸被打捞上来,科学家们也可以分析储存的DNA-以及降解情况-以确定它在海上丢失了多长时间。

即使芬克尔斯坦的团队已经取得了突破,基于DNA的数字存储还需要一段时间。他说,我认为利基应用可能即将出现,但我认为它在十年或更长时间内都不会成为大众市场产品。

磁带取代穿孔卡片成为数据存储的主要模式,带来了个人计算的革命,这已经将近60年了。从那时起,磁盘驱动器只会变得越来越小。因此,未来选择的存储介质如此之小,以至于你几乎看不到它,这实际上是有意义的。

此内容由第三方创建和维护,并导入到此页面以帮助用户提供其电子邮件地址。您可以在piano.io上找到有关此内容和类似内容的更多信息。

此评论区由第三方创建和维护,并导入到此页面。你可以在他们的网站上找到更多信息。