文明的信息越来越多地以数字方式存储,而这种存储是丰富和不断增长的。我们不需要删除7个天花板的高清视频或者20张我们孩子拍摄的桌子角落的模糊照片。智能手机和云端都有足够的空间,我们预计这两种空间每年都会增加。

当我们流畅地将信息从一个设备复制到另一个设备时,这种情况似乎是持久的。但这不一定是真的。

我们创建的数据量正在迅速增加。如果我们(天启般地)失去了生产数字存储设备的能力,例如硬盘或磁带,我们文明的集体数字记录将在数年内开始出现漏洞。几十年后,它几乎变得不可读。数字存储不像书或石碑。它的有效期较短。而且,尽管我们认为存储是理所当然的,但它仍然很昂贵而且耗电。

这就是为什么研究人员正在寻找新的方法来存档信息。而DNA,生命本身的“硬盘”,可能是一个解决方案。DNA提供了难以置信的高密度数据存储,在适当的条件下,它可以使信息保持数千年不变。

近年来,科学家们不断改进DNA数据存储技术。他们展示了我们如何对个体进行编码照片,甚至礼品从DNA中提取。但目前还没有一种可扩展的方法来组织和检索大量的DNA文件。直到现在,这是。

以新的方式天然材料纸张,麻省理工学院和哈佛大学博德研究所的一个团队描述了一种基于DNA的存储系统,这种系统允许他们搜索和提取单个文件(在本例中是DNA编码的图像)。这有点像翻阅你的文件柜,阅读纸张标签,以确定一个文件夹,然后把契约从它拉到你的车。只是,很明显,细节要复杂一点。

“我们需要新的解决方案来存储世界正在积累的大量数据,尤其是档案数据。”麻省理工学院(MIT)生物工程教授、论文资深作者马克•巴斯(MarkBaath)DNA的密度是闪存的千倍,另一个有趣的特性是,一旦你制造了DNA聚合物,它就不会消耗任何能量。你可以写下DNA,然后永远保存。”

如何组织DNA存储系统

一个人如何在DNA链中编码一个图像呢?这是一个相当简单的翻译问题。

数字图像的每一个像素都用位编码。这些位用1和0表示。为了将其转化为DNA,科学家们将每一位都分配给DNA的四个碱基分子,即核苷酸、腺嘌呤、胞嘧啶、鸟嘌呤和胸腺嘧啶,通常用字母A、C、G和T简写。例如,DNA碱基A和G可以代表1,C和T可以代表0。

接下来,研究人员将代表原始文件中每一位信息的DNA碱基串在一起(或合成)。为了检索图像,研究人员将这一过程颠倒过来,读取DNA碱基序列(或对其排序),并将数据转换回位。

这个标准检索过程但也有一些缺点。

研究人员使用一种称为聚合酶链反应(PCR)的技术来提取文件。每条DNA链都包含一个识别序列,该序列与称为PCR引物的短核苷酸序列相匹配。当引物加入到DNA溶液中时,它与我们想要读取的匹配DNA链结合,只有那些序列被扩增(也就是说,复制用于测序)。有什么问题吗?引物可以与非靶序列相互作用。更糟的是,这个过程使用的酶会使人消化全部的DNA。

“你在大海捞针,因为所有其他的DNA都没有被放大,你基本上把它扔掉了,”巴斯说。

MIT DNA数据存储图像显微镜玻璃珠
图中的显微镜玻璃球是DNA“文件”,每一个都包含一个图像,编码在DNA中,并包裹着描述图像的DNA标签。图片来源:由研究人员提供(通过麻省理工学院新闻)

为了解决这个问题,博德研究所的团队将DNA链封装在显微镜(6微米)玻璃珠中。他们在每个珠子的表面贴上短的单链DNA标签。像文件名一样,标签描述了珠子的内容。一个老虎图像可能会被标记为“橙色”、“猫”、“野生”。一只家猫可能会被标记为“橙色”、“猫”、“家养”。每个珠子只有四个标签,你就可以唯一地标记10个20DNA档案。

该团队可以通过添加与单个文件标签相对应的互补核苷酸序列或引物来检索特定文件。引物含有荧光分子,当它们与互补链连接时,也就是寻找的标签,它们形成双螺旋并发光。机器将发光的珠子分离出来,打开珠子,对里面的DNA进行排序。其余的DNA文件保持原样,留下来保护他们的信息。

该方法最好的部分是它的可伸缩性。从理论上讲,你可以在试管中储存一个巨大的DNA文库洗澡笔记一杯DNA咖啡杯可以储存世界上所有的数据,但是如果没有一个简单的方法来搜索和检索你要找的确切的文件,它是毫无价值的。使用这种方法,可以检索所有内容。

哈佛大学遗传学教授、合成生物学领域知名人士乔治·丘奇称这是该领域的一次“巨大飞跃”。

他说:“DNA形式的书写、复制、读取和低能耗档案数据存储的快速发展,为从巨大的……数据库中精确检索数据文件留下了探索不足的机会。”这项新的研究利用完全独立的DNA外层,利用DNA的不同性质(杂交而不是测序),以及利用现有的仪器和化学手段,惊人地解决了这一问题。”

这不是为你的电脑准备的

要明确的是,所有的DNA数据存储,包括这项研究概述的工作,仍然坚定地处于研究阶段。别指望你的笔记本电脑很快就会有DNA硬盘。

合成DNA仍然非常昂贵。用DNA写一PB的数据大约要花费1万亿美元。为了与磁带(一种常用的档案数据存储方法)相匹配,Bathe估计合成成本必须下降六个数量级。而且,这不是最快的技术(委婉地说)。

DNA合成的成本将会下降,这项技术在其他领域也在不断进步,而且随着工作的深入,合成速度将会提高。但后者可能离题了。也就是说,如果我们主要关心的是用最少的能量需求长期备份基本数据,并且不需要定期访问,那么速度就没有保真度、数据密度和持久性那么重要了。

DNA已经储存了生活世界的信息,现在看来,它也可以对所有的数字事物做同样的事情。

图片来源:由研究人员提供(通过麻省理工学院新闻)。

杰森是奇点中心的总编辑。他从事金融和经济方面的研究和写作188金宝搏app1.1.94,然后转向科技领域。他对几乎所有的事情都很好奇,但遗憾的是他只知道其中的一小部分。