最能装的硬盘,其实是你的遗传物质

如果说小时候最想要什么东西,大概会是《 哆啦 A 梦 》里的记忆面包吧。

大家应该对记忆面包都不陌生,只要吃下印了课文内容的记忆面包,课文就记牢了,不仅能省下时间去玩,还能得到老师夸奖。

这块面包应该是很多人童年的梦了吧,“ 要是真有记忆面包就好了 ”。不知道多少人这样想过。

那如果想让记忆面包成真需要做到什么?

一.把信息存储到面包上

二.吃下面包,让信息进入人体

三.消化信息

简单看步骤的话,现在的科技就能做到前两步了,之前看到新闻, DNA 存储技术已经能大规模写入数据了。

今年 6 月,美国科技公司 Catalog 将 16 gb的维基百科( 英文版 )全部文本保存到了一条人工合成的 DNA 中。

这滴液态呈现的 DNA 里有一整部维基百科

DNA 存储最直接的优点是存储量大。上面那块黄黄的液体重 3g ,但是其中 DNA 重量微乎其微。根据纽约基因组中心的数据 , 一克 DNA 可存储 2.15 亿 GB 数据。

把这些数据存到 1T 容量, 7mm 规格的硬盘里,硬盘堆在一起 , 有 1505 米高。世界最高建筑,迪拜塔也只有 828 米。。。

用 7mm 厚的硬盘堆到两个迪拜塔高

想想都有些小刺激

DNA 存储不仅存储量大,寿命还长。

不算吃 U 盘的怪兽,我一个 U 盘大概用 5 年。正常硬盘使用寿命在 5 -10年,遇到断电、冲击等情况还会更短。

常温下 DNA 的可读性能保持 2000 年。保存得当,简直一克永流传。。。甚至万年前的 DNA 都被还原了。

基因专家宣称,已破解 70 万年前史前马的 DNA

以目前水平, DNA 可以存一些政府文件,历史材料。估计以后也没什么历史、文化遗产之争了。

我是一只没有感情的粽子

随着技术发展, DNA 存储可以取代数据中心。我刚刚才知道,原来卡车拉硬盘比光纤快多了。

1Gbps 光纤直连,传送一亿 GB 数据要 20 年,卡车只用几天就能从南拉到北,从白拉到黑。。。

满载硬盘的 AWS Snowmobile 卡车能携带一亿 GB 数据

有了 DNA 存储后,这个时间只用以小时计了,数据随身就带走。

那电子数据是怎么存进 DNA 里的呢?记得生物课上讲过, DNA ( 脱氧核糖核酸 )是一种双螺旋结构( doublehelix )的生物大分子,由碱基组成。

DNA 链条上的长条就是碱基了~ DNA 中通常有四种碱基,大家直接理解成 A,T,C,G 就可以。

图片用不同颜色代表不同碱基

碱基的排列顺序,决定了长相、智力,不同病症的发病风险等。随便举个栗子, ACA 的排列让人眼神不好,按 CAC 排能让人长高。其实就是遗传信息。

相信大家都明白了:DNA 链条能储存遗传信息,那也能储存数字信息。

人工合成 DNA 进行数据写入,DNA 测序进行数据读取

这么简单的逻辑,当时却根本没人细想,大家都在忙着破解“ 基因密码 ”。

只要找出碱基排列的规律和意义,就像拥有了人类修改器,改长相改素质改寿命,变白变美变高变长寿。

于是“ 人类基因组计划 ”开始了。测序发展史,150年的风雨历程 (2018年12月更新版)

这项工程花费 30 亿美元和十几年时间,测出完整的人类基因序列。如果把破解碱基排列比作翻译一本书 , 此时相当于终于把书拿到手里了。。。

别笑,这是人类的一大步好么。

虽说没有立竿见影的成果,但这工程推动了 DNA 测序技术的发展。要知道在上世纪 80 年代, DNA 测序还是全人工的。巨大需求量的刺激,让 DNA 测序进入了自动化时代。

早期的Sanger全程人工,过程复杂

不是老司机根本做不了

破解不了碱基序列,人们就变实际了。都要恰饭的嘛,能拿诺贝尔的发现(2018美日科学家因免疫治疗得诺贝尔生理医学奖|动图展示历年生理学奖),怎么不得利用起来?看不懂没关系啊,排成咱看得懂的样子,好歹当个 U 盘?于是 DNA 存储技术出现了。。。

虽然依然离不开人工,DNA 测序高大上多了

如果把碱基看成 A , T , C , G 四个字母 , 碱基序列实际上就是一串英文。而数据实际上就是一串数字。把数字和碱基字母对应起来,重新排列,就能表达内容。

把碱基按新顺序排就成了糖葫芦,啊呸,是表达意义

相信大家小时候都做过这种题。。。

题目就不去算了~ DNA 存储就是类似的思路。

给水果赋予不同的数字,假如我想表达 324121 ,只要排列水果就可以了。

知道转换规则,就能从排列中读取信息。DNA 存储就是通过把碱基看成固定数字,将数字化的数据转换成碱基序列的方式。

把 A,G 视为 0 ,C,T 视为 1 ,排列后合成。简单粗暴,这就是最早的 DNA 存储。

去年的时候,

catalog 的 DNA 存储设备还是个概念

为了存储更多数据,人们尝试了把 A ,T ,C,G 看成 0 ,1,2,3 的四进制。

比如我们要转换四进制 21130

虽然四进制能缩短数据长度,但同一碱基连续出现,会让序列不稳定,影响数据的准确。

四进制时相当于一个碱基表达两个二进制数字

更高的进制,四种碱基又不够用,为了解决这个问题,人们用了一种三进制的方案。这种方案里从第二位开始编码,以前一位碱基来决定后一位。前一位碱基是 A ,下一位就把 A 排除,用 C,G,T 来代表 0,1,2 。

我们可以试一试。刚才的数字用三进制表达是 211101 。假设碱基序列第一位是 A ,转换结果就是 ATCTCGA

这个结果是怎么得来的呢?第一个字母是 A 时,按照表格,代表 2 的字母是 T,T 后面代表 1 的字母是 C,C 后面代表 1 的是 T,依此类推。

学习了这个格式,生信分析相关文件格式和查看方式也了解一下?

生信分析过程中这些常见文件的格式以及查看方式你都知道吗?

解决了编码问题,大家玩嗨了,动图、音频、电影先后被存入 DNA 。

哈佛大学存入大肠杆菌 DNA 的 gif

2017 年,纽约基因组中心将电影火车进站存入 DNA 。

存入数据大小的记录也快速刷新着, 2012 年哈佛 650KB 的记录很快被 MB 级碾压。

2016 年记录到了百兆级,微软存了 200M 电子书,大概等同 789 本高中语文必修一。。。

今年微软做了个 DNA 自动存储系统。。。“ hello ”这 5 个字母的存储和读取花了 21 个小时。。。

价值一万美金的系统

Emm …这就是 DNA 存储的缺点了。。。

微软 2016 年的写入速度是每天 20M ,一共花了 80 万美刀的合成费用。又贵又慢。

但有关 DNA 存储的科技在不停进步。2001 年至今, DNA 测序从上亿美元降到了不到一千美元。今年 Catalog 的写入速度已经到了 4M 每秒。

Catalog 用来把数据写入 DNA 的设备

成本降到十万分之一,写入速度快了千万倍。这种进步幅度,足以对 DNA 存储技术保持期待。在不久的将来,也许电脑里的硬盘就换成瓶装 DNA 了。

不过记忆面包的事还是忘了吧,至少靠 DNA 存储技术是没办法实现记忆面包的。

虽然 DNA 存在于人体每一个细胞中,但是大脑却无法读取 dna 中的任何信息。不信现在可以试试能不能从 DNA 里感受到你的遗传信息。

更何况,大脑完全读不懂我们设定的排列规则,在它眼里,这种 DNA 里大概是这样的。

所以,一直想着记忆面包,还不如好好学习。努努力说不定就背下来了。毕竟一辈子要背的东西,也就那么多。

原文发布于微信公众号 - 生信宝典(Bio_data)

原文发表时间:2019-07-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

扫码关注云+社区

领取腾讯云代金券