多亏了云,我们很难想象我们会耗尽数据存储。但到2040年,我们可能会被三十亿亿个比特的数据所包围,地球上的芯片级硅将会耗尽。据估计,目前的数据农场将持续一个世纪。

为了 ”大数据“革命要继续,我们需要从根本上重新思考我们的硬盘。多亏了进化,我们已经有了线索。

我们的身体是用数据包装的堵塞,在每个细胞内部微观结构紧密压实。服用DNA:只有四个字母,我们都能够产生让我们跑步的每一个分子过程。这种组合复杂性在计算机芯片中基于硅的数据存储仍然是闻所未闻。

将其添加到DNA可以脱水并保持完好的EONS-500,000年并计数 - 这并不让科学家们感到惊讶一直在开发它的特性吗编码信息。对著名的合成生物学家乔治·丘奇博士来说,寻找生物学是显而易见的:即使是简单的大肠杆菌也有10个数据存储密度19每立方厘米的比特。翻译?只是单一立方体的DNA测量每边一米可以满足所有的世界当前的数据存储需求

但如果我们能做得更好呢?

DNA本质上是一种生物指标,最终扩展以产生整个生化球员的生化球员,使身体的日常运营 - 代谢物。与DNA相比,只有四个“比特”,代谢物是数十万分子的巨大生态系统。换句话说,它是一种现成的金矿,准备好充满了我们自己选择的信息 - 如果我们可以挖掘它。

本月,由Jacob Rosenstein博士在布朗大学提供的团队第一个概念证明之一DNA不是数据存储世界中唯一的生物播放器。它甚至不是最强大的。由于DNA相对容易阅读和写入,因此它是目前具有最多蒸汽的低悬垂性的实用生物储存介质。是时候看看更广泛了。

“不难认识到细胞和生物使用小分子来传输信息,但概括和量化可能更难,”研究作者埃蒙·肯尼迪博士。“我们想展示代谢组如何对精确的数字信息进行编码。”

满足您的代谢物

如果DNA是一种畅销的小说,那么代谢物就是其忠实的电影适应。

最终,代谢物从DNA接收其指令。但由于其数量,结构和品种的复杂性,代谢物提供了信息载体的整个生态系统,其信息密度远远多于原始内容。这是代谢物卓越的数据储存权的来源:其在令人难以置信的组合中共存和互动的分子的多样性。

“分子信息[使用代谢物]的理论限制是质量比DNA大的两个数量级,”解释罗森斯坦在之前的一篇论文中写道。“我们乐观地认为,许多新型分子存储介质将被开发出来。”

当然,问题在于如何将混乱的生物成分编码成数字信息。DNA相对简单——将0和1系统映射到a、T、C和g1并不难。但是从哪里开始研究大量的生物分子呢?

代谢物硬盘

研究小组首先将代谢物制成汤——糖、氨基酸、维生素和其他我们通常用来消化食物或维持身体运转的小分子。他们总共使用了36种常见化学物质,并用它们的存在或缺失来对1和0进行编码。通过建立化学-数字桥梁,该团队希望最终将代谢组硬设备的范围扩大到我们目前可以存储在硅芯片中的任何东西。一种特定混合物中不同代谢物化学物质的总数决定了可以存储多少比特,作为首次演示,该研究主要集中于6比特或12比特。

为了精确地将液体组件移动到钢板上用于存储和读取,研究小组使用超声波的能量(不开玩笑)将微小的液体推向其目标点。点DOT,超声机器人产生的板整齐地衬有柱子和排行的代谢流体与不同的组合物。

在最初的概念验证中,研究小组专注于用代谢组语言书写和阅读简单的数字图像。需要一个视觉?图片类似于《我的世界》的块状黑白剪辑艺术。为了对输入进行编码,他们构造了一个字典。例如,钢板上的一个特定点被指定为表示二进制代码0101。实际上,这意味着这个点在那个位置有两种特定类型的代谢物。一个相邻的点对应着一个不同的二进制代码,它有自己独特的代谢物组合。

字典在手中,团队然后编码了一个锚点,一个伊巴塞 - 一个有角的麋鹿的动物和埃及猫在多个钢板上。例如,要将IBEX图像写入代谢物中,该团队使用六种不同分子的混合物,随着每个编码1或0的存在或不存在。总共在多个板上产生数千个液点,有每个都提供足够的二进制存储空间来编码超过17,000像素的图像,该图像增加到100,000位的信息。

检索这些数据需要另一台机器:质谱仪。质谱仪是一种成熟的技术,通常用于检测化学物质的存在及其含量。最后,使用一种从噪声中分离信号的算法,该团队能够读取每个2kb的文件,识别分子,并以大约99%的准确率重建图像。

分子密度

公平,2kb非常小。但作为概念的第一个证明,该研究表明小型生物分子有能力一起用于数据存储。

从文件大小的角度来看,到目前为止,DNA存储已经达到每克214拍字节,但理论上的限制要高得多。但该团队表示,由于其化学多样性,从理论上讲,代谢组可以很容易地利用现有的小分子库来匹配这种水平的存储。

换句话说,该系统是可大规模伸缩的。的确,增加分子的多样性,也就增加了位元,也会使精确读取数据变得更加困难。然而,通过在系统中采用纠错代码,以及越来越复杂的分子分析数据技术的帮助——如人工神经网络、遗传算法——前景似乎相当光明。目前已鉴定的代谢组分子的数量是10万,从DNA的四个字母到一个量子飞跃。即使只有一小部分是稳定的和可读的,我们将看到一个主要的存储提升。

更多的优化也将提高输入检索速度。该研究能够以大约每秒5位的速度写入数据,以大约两倍的速度读取数据,但作者说,还有“很大的改进空间”。

也就是说,这个系统有一个巨大的内置错误。因为代谢物是可以相互作用的小化学物质,计划外的化学反应可能会破坏编码的精确性。但这种反应性也可以转化为一种强大的功能:它可以让科学家改写数据,或以可预测的方式转换数据。虽然还为时尚早,但它“暗示了合成代谢组学计算的可能性,”作者说。

从根本上,研究希望鼓励人们更广泛,创造地思考可能的生物硬盘的范围。

“这挑战的研究是人们在分子数据系统中看到的挑战,”研究作者Brenda Rubenstein博士。“脱氧核糖核酸并不是唯一可以用来存储和处理信息的分子。我们很高兴地认识到还有其他潜力巨大的可能性。”

图像信用:Bestbrk./Shutterstock.com

Shelly Xuelai Fan是一个神经科学家转向科学作家。她在不列颠哥伦比亚省大学的神经科学中完成了博士学位,在那里她开发了新的神经变性治疗方法。在研究生物脑的同时,她对AI和所有东西都很着迷。毕业后,她搬到了UCSF,研究了恢复老年大脑的基于血液的因素。她是 ...

跟雪莉: