前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >为什么说生物信息学是真正的大数据行业?

为什么说生物信息学是真正的大数据行业?

作者头像
简说基因
发布2020-12-02 11:25:45
6390
发布2020-12-02 11:25:45
举报
文章被收录于专栏:简说基因简说基因

一不小心进入了大数据这一朝阳产业,内心还有点小激动呢。怎么回事呢?我什么都不知道啊。先看下表吧。

1. DNA 的基本单位为什么叫碱基对?

因为 DNA 是由两条反向互补的链组成的,两条链之间遵循碱基互补配对原则(A 与 T 配对,G 与 C 配对)。知道了一条链的序列,就能推断出另一条链的序列。因此当谈到 DNA 的一个基本单位时,习惯上叫碱基对(base pair,缩写为 bp),意味着它可以代表的是一对碱基,也就是一对核酸。

2. 基因组大小是怎么定义的?

人的基因组约有 3 个 G,这 3 个 G 严格来说是人的一个细胞中一半 DNA 的碱基数。因为人是二倍体,共有 46 条染色体,23 条来自于父亲,23 条来自于母亲。两者共 6 个 G。因此当谈到一个物种的基因组大小时,指的是其配子(单倍体)中所有 DNA 的碱基数。有人说人的基因组有 6 个 G,这是不严谨的。

3. 为什么说生物信息学是大数据行业?

举几个例子:

(1)科研上测人的基因组,习惯上测 30X,也就是每一个碱基测 30 次,那么 30*3G 就是 90G 了。一个项目测 5 个人的,得到的数据差不多要 500G 硬盘来装了(不考虑压缩的情况)。处理这些数据,对计算资源的要求可想而知,普通笔记本和台式机肯定不行了,得上服务器。测序公司一年测无数个样本,他们的计算机集群的存储空间都是按多少 Pb 算的。

(2)肿瘤基因检测为什么现在以 panel(也就是一些基因的组合)为主?部分项目上 WES(全外显子组,就是一个人的所有基因),几乎没有公司的产品是上全基因组的。首先测太多数据没有必要是一回事,测序成本的考量也是一方面。因为即便 2Mb 的 panel,动辄几千上万 X 的有效数据要求,测序成本是很可观的。

(3)病原宏基因组测序目前被质疑灵敏度不够,也是因为一个样本测序的数据量太大,要考虑成本问题。

总之,行业现在的策略是,全基因组太大,我就测全外显子组,全外显子也大,我就测大 Panel,大 Panel 也贵,就整个小 Panel。做出多样化的产品,满足不同支付能力的客户的需求。

所以,虽然目前获取生命 DNA 的序列信息非常容易,但考虑到成本,也不是可以任性想怎么测就怎么测的。一方面单个样本的数据量大,其次人群队列(十万人口,百万人口,甚至一国人口)的数据,那就更大了。大到不可承受,只能控制住数据规模,在成本与效益之间寻求平衡。

大数据的大,不仅在于规模,还在于复杂。规模大,需要巨大的计算资源;复杂,对从业人员的专业技能要求高。试想几卡车钞票要点,能叫大数据吗?

因此,生物信息学作为利用生物学知识与计算机工具处理大规模且复杂的数据,是真正的大数据。

加油吧,大数据人。


如果你喜欢这篇文章,请点个“赞”吧!或者点击“在看”让更多朋友看到,点击“阅读原文”可以在知乎专栏上给我留言

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-11-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 简说基因 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. DNA 的基本单位为什么叫碱基对?
  • 2. 基因组大小是怎么定义的?
  • 3. 为什么说生物信息学是大数据行业?
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档