Science重磅 | DNA存储技术可最大化,人类全部数据只占几卡车空间

【新智元导读】在发表于《科学》(Science)的研究中,研究者 Yaniv Erlich 和 Dina Zielinski 描述了一种可以最大化 DNA 分子的数据存储能力的新编码技术。该系统能够在一克DNA中存储215PB(2.15亿GB),原则上可以将人类记录的所有数据存储在几辆卡车大小和重量的容器中。

人类面临着数据存储的难题:过去2年中产生的数据比之前人类历史产生的全部数据还要多。信息的洪流可能很快就会超过硬盘的承受力。现在好了,研究人员称,他们已经找到了一种新的方法来编码DNA中的数字数据,以创建前所未有的最高密度大规模数据存储方案。该系统能够在一克DNA中存储215PB(2.15亿GB),原则上可以将人类记录的每一点数据存储在几个卡车大小和重量的容器中。但是,这项技术能否推进可能取决于它的成本。

在发表于《科学》(Science)的研究中,Yaniv Erlich 和 Dina Zielinski 描述了一种可以最大化 DNA 分子的数据存储能力的新编码技术。Credit:New York Genome Center

用DNA存储数据的优点

用DNA存储数字数据有许多优势。它是超小型的,如果保存在阴凉,干燥的地方,它可以几十万年不损坏。只要人类社会能阅读和编写DNA,就能够对其进行解码。“DNA不会像盒式磁带和CD那样随着时间的推移而衰减,它不会过期。”哥伦比亚大学计算机科学家Yaniv Erlich说。也不像其他高密度的存储方式,比如操纵表面上的个别原子,这项新技术可以一次写入和读取大量的DNA,且可以放大。

之前的工作

科学家开始使用DNA存储数字数据,要追溯到2012年。当时哈佛大学的遗传学家George Church, Sri Kosuri和其他同事使用 DNA 的四种碱基 A、G、T和C来编码数字化文件的0和1,把一本52,000字的书编码到数千个DNA片段中。然而,他们的编码方案相对低效,每克DNA仅能存储1.28PB。后来也有一些方法做得更好,但没有一个能够存储超过研究人员认为DNA实际可以处理的(每个DNA 核苷酸约1.8比特)一半的存储量。(研究人员认为每个DNA 核苷酸可以存储约1.8比特,而不是2比特,是考虑到DNA写入和读取中罕见但不可避免的错误)。

最新的研究和方法

Erlich认为他可以接近这一极限。因此,他和New York Genome Center的助理研究员Dina Zielinski研究了用于编码和解码数据的算法。他们从六个文件开始,其中包括一个完整的计算机操作系统,一个计算机病毒,一部1895年的法国电影《火车进站》,和1948信息学家Claude Shannon的一份论文。他们首先将文件转换为1和0的二进制字符串,将它们压缩成一个主文件,然后将数据拆分为二进制代码的短字符串。他们设计了一个称为DNA喷泉的算法,将这些字符串随机地打包成所谓的水滴,然后向其中添加额外的标签,以帮助以正确的顺序重新组合它们。总而言之,研究人员创建了72,000个DNA链的数字列表,每个长度为200个碱基。

Columbia University 和NewYork Genome Center (NYGC)的研究表明,设计用于手机流视频的算法可以通过压缩更多信息到四个基本核苷酸的方式解锁DNA几乎全部的存储潜力。他们同时指出,这项技术也极为可靠。来源:Columbia University

他们以文本文件的形式把这些东西发送给了 Twist Bioscience,一家位于旧金山的初创公司,在那里这些文本被合成了DNA链。两周后,Erlich和 Zielinski 收到一个小玻璃瓶,里面装着编码了他们文件的DNA 。为了对它们进行解码,他们使用现代DNA 测序技术,将遗传密码翻译回二进制数字,并使用标签重组了六个原始文件。根据他们在《科学》杂志上发表的报告,这种方法效果很好,新的文件没有出错。他们还能够通过聚合酶链反应(一种标准的DNA复制技术)复制几乎无限数量的无错误文件。更重要的是,Erlich说,他们能够为每个核苷酸编码1.6比特(bits)的数据,比前人研究好60%,达到了理论极限的85%。

“我喜欢这个研究,”Kosuri说,他现在是UCLA的生物化学教授。“我认为这本质上是一个确定性的研究,确定你可以在DNA中大规模地存储数据。

然而,Kosuri和 Erlich 提到,新的方法现在还不具备大规模使用的条件。因为成本太高,合成文件中的2兆字节的数据花费了7000美元,然后读取这些数据又花了2000美元。Erlich说,随着时间推移,成本可能会下降,但这样的研究仍有很长的路要走。此外,与其他形式的数据存储相比,将数据写入DNA 以及读取其中的数据都相对较慢。因此,如果数据需要立即处理,这种方法就不太可行,这种方法更适合应用于档案。

谁知道呢?也许在不久的将来,Facebook、亚马逊等公司的大型数据中心某天会被几卡车的DNA 取代。

视频内容

对于成本问题的质疑

科技类网站Ars Technica的编辑 John Timmer 也指出,这一技术的问题在于每次读取数据需要花费漫长的时间和高额的成本,这一成本甚至高于将数据植入DNA的成本。

Erlich和 Zielinski则指出,成本高昂是由于对于DNA品质的苛求,直接跳过DNA质检的步骤会直接减低成本,而他们自信随之而来的错误率则会被系统本身很好地修正。

针对这一技术中高昂的DNA合成和读取成本,UCLA的生物化学教授Sri Kosuri则认为投资者不会花费巨资来降低成本。

当然,John Timmer也并不是在完全否定这一方法。相反,他指出:只要人类文明的技术确保我们还可以读取DNA和运用喷泉算法,那么这些数据永远都是可以被读取的。任何其他形式的数据存储恐怕都无法保证这点。当然如果人类文明已经倒退到无法完成上述工作的地步,那这些数据对我们已经毫无意义了。

来源:

http://www.sciencemag.org/news/2017/03/dna-could-store-all-worlds-data-one-room

https://phys.org/news/2017-03-short-movie-dna.html

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2017-03-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏企鹅号快讯

谁适合学Python?学了Python可以做什么工作?

Tips: 目前在很多行业中都在越来越多的应用Python,这也是很多行业学习Python的原因,Python主要的应用领域有哪些呢?今天我们就来详细看一下。 ...

1.6K50
来自专栏腾讯数据中心

互联网业务安如磐石之根基——IDC物理安全

【物理安全是安全管理的基础】 什么是物理安全?撇开一板一眼的概念定义,我们先来看看下面这个小场景: 在一个风和日丽的下午,我们驱车拜访一位朋友,在与朋友欢聚一堂...

38950
来自专栏程序人生

如和在几十个 Repo 中游刃有余?

Sindre Sorhus 是我一直 follow 并且仰慕的程序员。他的 github 日常是这个样子的:

12120
来自专栏华章科技

一件有趣的事:我用 Python 爬了爬自己的微信朋友

安装完成后导入包,再登陆自己的微信。过程中会生产一个登陆二维码,扫码之后即可登陆。登陆成功后,把自己好友的相关信息爬下来。

11330
来自专栏HansBug's Lab

【作业4.0】HansBug的第四次面向对象课程思考

11830
来自专栏机器之心

教程 | 如何通过57行代码复制价值8600万澳元的车牌识别项目

选自Medium 作者:Tait Brown 机器之心编译 参与:蒋思源、黄小天 Tait Brown 利用 Openalpr 库和 VicRoads API ...

48460
来自专栏腾讯云数据库(TencentDB)

TDSQL参加全球数据库顶级盛会 VLDB 2018回顾

作者介绍:卞昊穹(hankbian):腾讯数据库TDSQL团队成员,高级工程师。中国人民大学博士,曾在SIGMOD、ICDE、CIKM等数据库相关领域顶级会议发...

65140
来自专栏Data Analysis & Viz

我的简书一月记:数据可视化

截止前天,来简书正好一个月。20170730 注册了账号,当晚发布处女作《爬取张佳玮138w+知乎关注者:数据可视化》,从而开启了《python爬虫和数据可视化...

9420
来自专栏我是攻城师

如何学好一门编程语言?

65150
来自专栏数据小魔方

突然有一个大胆的想法,提前分享给大家

也是由于前段时间工作中遇到一个很小文本分析的需求,虽然最后不了了之了,但是却勾起来自己对文本分析的极大兴趣。

10510

扫码关注云+社区

领取腾讯云代金券