一杯DNA装下全世界?MIT突破DNA新检索技术,实现DNA「冷存储」

一个咖啡杯就能装下全世界?

有了DNA数据存储,这是可能的。

1988年,艺术家Joe Davis和哈佛大学研究人员合作,首次证明了DNA存储数字化数据的原理。

Davis通过明暗像素将代表35bits数据的符文符号图像表示为二进制0和1,并将其编码成了大肠杆菌DNA中的28个碱基对。

随后,存储在DNA中的数据也从简单文本变成高清音乐视频、整个数据库、MPEG、JPG、PDF等文件,甚至还有恶意软件。

DNA数据存储发展过程(1965-2018)(图源:nature)

DNA数据存储是什么

DNA数据存储是一个将二进制数据转换成人工合成DNA链的编码过程。

为了在DNA中存储二进制数字文件,比特(bits)将从1和0转换成字母A,C,G,T,这四个字母代表组成DNA的四种核苷酸:腺嘌呤,胞嘧啶,鸟嘌呤,胸腺嘧啶。

物理存储介质是一条序列中包含As, Cs, Gs, Ts的合成DNA链,其顺序与数字文件中的bits相对应,如果要恢复数据,需要对DNA链进行测序,根据As, Cs, Gs, Ts还原成初始的数字序列。

数字化的数据在DNA中编码和解码的过程(图源:https://www.ssbt.org.cn/upload/20190905163302_429.pdf)

在人类创造数据能力不断增长的今天,基于DNA的数据存储似乎是个「潜力股」。

因为与其他大多数媒介相比,DNA提供了惊人的「数据存储密度」,而且相比传统数据存储,它具有高度稳定性:DNA分子半衰期超过「500年」,低温条件下可保存「成千上万年」。

但DNA并非没有缺点,成本高昂是阻碍其发展的主要问题。

目前,DNA链的碱基模式中没有编码比特的标准方法,合成特定的序列仍然很昂贵。而用目前的方法访问数据不仅慢,而且会消耗用于存储的DNA。如果试图访问数据的次数太多,就必须以某种方式恢复它,这有可能引入错误。

近日,麻省理工学院和Broad研究所(Broad Institute)的一个团队找到了一个解决方案。在这个过程中,研究人员创建了一个基于DNA的图像存储系统,它介于「文件系统」和「基于元数据的数据库」之间,相关论文已在Nature上发表。

把所有数据存储到DNA上的瓶颈

在DNA中存储数据的系统涉及到向包含数据的DNA片段添加特定的序列标签。

为了得到想要的数据,你只需添加能与正确的标签碱基配对的DNA位,并使用它们来扩增完整的序列。可以把它想象成用一个 ID 标记集合中的每个图像,然后进行设置,只放大一个特定的 ID。

这种方法是有效的,但它有两个方面的限制。

首先,使用称为PCR(聚合酶链式反应)的过程进行的扩增步骤,对可扩增的序列的大小有限制。而每个标签都会占用一些有限的空间,所以添加更多详细的标签(如复杂的文件系统可能需要)会减少数据空间。

一条 8 个 PCR 管,每个管含有 100 μL 反应混合物

另一个限制是,扩增特定数据片段的 PCR 反应会消耗一些原始的 DNA 库。换句话说,每次你拉出一些数据,你都会破坏成堆的不相关的数据。频繁地访问数据,最终会耗尽整个存储库。虽然有办法重新放大一切信息,但每次这样做都会增加引入错误的机会。

而这项新的研究已经将标签信息从数据存储中分离出来。此外,研究人员创建了一个系统,其中可以只访问你感兴趣的DNA数据,而不触及其余的数据,提高了数据存储的寿命。

给二氧化硅磁珠添加「涂层」

该基本技术是基于这样一个事实,即DNA会粘在二氧化硅磁珠(beads)上。

但这种吸力与DNA的大小无关,因此你可以使用这个系统存储任意大的数据块(在这种情况下,这些片段的大小是过去使用的典型的DNA数据存储块的10倍以上)。

同样重要的是,DNA中没有标签被存储在数据中,所以数据存储和文件系统信息之间没有竞争。

一旦DNA出现在这些磁珠的表面,研究人员就在其上面聚合一些额外的二氧化硅。这个过程涂抹了DNA并保护它不受环境影响。

研究人员通过使用荧光标签来确认该系统是有效的;基本上,所有以这种方式创造的颗粒都含有DNA。

只有当这个外壳就位后,研究人员才添加标签,这些标签与外壳进行化学连接。这些标签是由单链DNA制成的,而且有可能在一个玻璃外壳上附着几个不同的标签。

研究人员对每个数据块分别进行了处理,一旦一切就绪,被标记的玻璃球就可以混入一个单一的数据库。

虽然没有纯DNA的存储那么紧凑,但仍然具有长期稳定和不需要能源维护的优势。

取代PCR

有趣的部分是访问数据。

除了成本之外,使用DNA存储数据的另一个主要瓶颈是,很难从所有文件中挑选出想要的文件。

此次开发的新的检索技术,希望取代PCR方法。

研究人员将每个DNA文件封装到一个微小的二氧化硅磁珠中,每个磁珠都贴上了由单链DNA组成的「条形码」,与文件内容相对应。

为了证明这种方法的成本效益,研究人员将20个不同的图像编码到大约长度为3000个核苷酸的DNA片段中,这大致相当于100个字节(研究还显示,这些磁珠可以容纳高达1GB的DNA文件)。

研究中的每个文件都有相应的条形码标签,如「猫」或「飞机」等。

当研究人员想要提取一个特定的图像时,他们会取出一个DNA样本,加入与目标标签相对应的引物。例如,老虎的图像对应的标签是「猫」「橘色」和「野生」,而家猫的图像对应「猫」「橘色」和「家养」。

这些引物用荧光或磁性颗粒标记,便于从样本中提取并识别匹配片段。

通过这种方法,研究人员可以将需要的文件移出来,剩下的DNA则完整地放回去,继续存储数据。

他们的检索过程允许「布尔逻辑语句」,如「总统和18世纪」会生成「乔治·华盛顿」的结果,这很类似谷歌的图像检索。

在目前的概念验证阶段,搜索速度是每秒1000字节(1KB)。文件系统的搜索速度是由每个磁珠的数据量大小决定的,而目前限制数据量大小的因素就是在DNA上写入100兆字节(MB)数据所需的高昂成本,以及可以并行使用的分类器的数量。

如果DNA合成变得足够便宜,就能够用这种方法将每个文件存储的数据量最大化

DNA数据存储目前局限于「冷存储」

该系统还允许用多个术语进行「布尔搜索」(Boolean search)。

通过一个接一个地选择不同的标签,你可以建立起相当复杂的条件:猫为真,驯养的为假,黑为真,等等。

给两个标签贴上相同的荧光颜色,如果你抓到任何带有这种颜色的东西,你就可以得到相当于逻辑OR的结果。

因为这些标签中的每一个都可以被看作是关于DNA所存储的图像的元数据,磁珠的集合最终作为一个元数据驱动的图像数据库。

虽然这项研究代表了基于DNA的存储在复杂性方面的一个重大飞跃,但它仍然只是基于DNA的存储。

这意味着它的速度之慢,甚至还不如磁带驱动器。

根据研究人员的计算,即使他们把更多的数据塞进每颗磁珠,搜索上限只是每秒约1GB的数据。这将意味着搜索PB级的数据将需要「两周多」的时间。

而这仅仅是找到合适的磁珠。敲开它们,将DNA放进去,然后进行必要的测序,以实际确定磁珠中储存的内容,这又会使实验过程增加几天。

当然,没有人会因为DNA存储「速度快」而推荐它;正如上面提到的,它的优势在能源使用和数据稳定性方面。

我们只有在确定不会经常访问某些数据时才会将它储存在DNA中,也即「冷存档存储」。

不过,目前,该实验室已经成立了一家名为Cache DNA的初创公司,正在开发DNA的长期存储技术,既可以用于长期的DNA数据存储,也能用于短期的临床和其他现有的DNA样品存储。

https://www.cache-dna.com/

虽然可能还需要一段时间才能将DNA作为数据存储介质,但目前在Covid-19检测、人类基因组测序和其他基因组学领域中,对于DNA和RNA样品的低成本和大规模存储的解决方案都有很大需求。

  • 发表于:
  • 原文链接http://news.51cto.com/art/202106/666856.htm
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券