基因组测序简介

风飘叶扬

发布于 2018-02-01 16:40:55

1.7K0

在Databricks中查看这篇文章的笔记形式

这是一篇对于来自西北基因组中心和华盛顿大学的Deborah Siegel和来自Databricks的Denny Lee的专访，内容是他们就基于ADAM和Spark的基因组变量分析方面的合作。

本文是三篇关于使用K-Means，ADAM和Apache Spark的基因组变异分析系列文章的第一篇：

介绍

在过去的几年里，我们看到了基因组测序技术在花费成本和时间上的大幅减少。了解基因组序列的多样性不光可以帮助我们识别普通疾病的易感人群，解决罕见疾病，还能让临床医生为不同病人开出个性化的处方，并依据个人情况决定每个人的剂量。

在这个由三部分组成的博客中，我们将对基因组测序及其发展潜力做一个简要的介绍。我们将重点关注基因组变量分析——即基因组序列之间的差异，以及这项技术如何通过使用Databricks社区版的Apache Spark和ADAM（一个可扩展的基因组处理API和CLI）加速。最后，我们将对基因组变量数据执行k-means聚类算法，并建立一个模型由这些变量来预测个体的地理种群。

第一篇文章将提供基因组测序的简要介绍。您也可以跳到重点介绍并行生物信息分析的第二篇文章《并行化基因组变量分析》，或第三篇《基于基因组变量和K均值预测地理种群》。

基因组测序

一个非常简单的语言类比

想象一个由30亿字符组成的长字符串，其中大约有25,000个单词与其他字符交错在一起。有些单词甚至连成了一句话。更改、添加或删除字符或字符组都可能会改变单词甚至句子的结构或含义。

每个长字符串都有大约一千万到三千万个可能出现这种差异的地方，这使得事情变得有趣了起来。当然，事实上基因组肯定比字符串更复杂。但是它确实是基因组数据的合理抽象类比。

在基因组中，我们一直在积累关于词（基因）在字符串（碱基）中位置的知识，并且试图发现它们产生差别的地方（变量）。但是我们什么都不知道。我们仍然在研究每个变量的作用是什么，基因之间是如何相互关联的，以及在某些特殊情况下如何以不同的形式和数量表现出来。

基因组测序简介

基因组测序就是使用化学方法和记录技术依次（按顺序）读取编码基因组的字符（A，G，C，T）。

数据最初是以短字符串的形式读取的。对于一个人基因组的30倍覆盖（30倍是一个普遍的目标），可能有大约6亿个长为150个字符的短字符串。在数据预处理期间，字符串通常会对比一个参考序列映射、对齐，有许多不同的方法可以达到这个目的。最终，每个碱基得到一个确定的位置。通过将序列与参考序列或是其他比对序列进行比较，我们可以找到序列中的编码差异并进行变量分析，并将基因型分配给每一个基因变量。

事实上，检测到的一部分变量其实是无意义的噪声，这些噪声可以通过由覆盖率、质量和特定域偏差等参量确定的固定阈值进行滤除。在此基础之上，一些分析人员通过拟合高斯混合模型来对变量进行阈值过滤。而更进一步的方法是，分析师定量研究数据，试图确定那些高度重要的变量（相对于输入来说很小的一部分），并预测它们有什么样的功能和效用。

为什么测序？

从数据科学角度来看，基因组序列（和外显子组序列，它的一个子集）是有趣的数据。我们可以使用我们的序列知识来获得有关编码方式长期演变的方式和原因的线索。基因组测序研究的知识越来越融入医学。基因组测序现在被用于非侵入性产前诊断，并且考虑到正在进行大量推广基因组医学研究的工作，它将很快被用于临床检查和诊断测试中。

在研究发现方面，大规模人群的基因组测序研究能发现某些常见疾病的基因模式，如自闭症，心脏病和某些癌症。测序研究也表明这些基因会影响药物代谢，从而使临床医生针对每个病人配置个人处方和剂量。在面对罕见的遗传病时，对某些家庭成员的测序经常导能发现这些病发病的原因。

（图片来源：Frederic Reinier，已授权使用）

在过去五年中，测序实验已将基因组变量与数百种罕见疾病联系起来：

“单独而言，一种罕见的疾病可能只影响少数家庭。但是如果把所有罕见病加起来，仅在美国，就有二千至三千万人受到影响。“

由于这些原因，有资源去阅读和分析序列。英国国民医疗服务体系（NHS）有一个计划，在2017年之前对患有罕见疾病或癌症成员的家庭的100,000个基因组进行测序。在美国，国家人类基因组研究所（NHGRI）计划在接下来四年里资助2.4亿美元用于常见疾病研究，并资助4000万美元进行罕见疾病研究。还有其他类型的测序将受益于生物信息学的进展，以及降低将数据科学应用于大量序列数据（RNA-seq，微生物群测序，免疫系统和癌症谱测序）障碍的努力。

测序技术一直是加速发展的对象。1998年至2001年，人类进行了第一次基因组测序，以2009年的美元为标准它花费了28亿美元。今天，基因组可以在3天内进行测序，价格大约为1000美元（更多信息，请查阅美国国立卫生研究院：国家人类基因组研究所（NHGRI）> DNA测序成本）。在大约前25年的测序实验中，化学反应一次只能同时测序一个DNA片段，这让这个工程变得繁重、缓慢且昂贵。新一代的测序已经大规模平行化，使得在同一个实验中可以同时对多个DNA片段进行测序。此外，通过分子标记技术，我们可以同时对多个个体的DNA进行测序，他们的数据会在分析过程中分离出来。如果推测地球上的大多数人会选择在不久的将来将对他们基因组进行测序，这件事情也不是那么地不可思议。要了解更多关于下一代测序技术的更多细节，请参阅下一代测序技术的十年陈述。

根据应用和设置的不同，当前的测序仪器每天可以读取大约600兆碱基对。一个大中型测序中心有几台这样的仪器同时运行。正如我们后面将详细讨论的，生物信息学面临的一个挑战是用于分析基因变量的下游软件以前已经针对特定的、不可扩展的文件格式进行了优化，而不是对于数据模型本身。结果是存在流水线变得脆弱和可扩展性也存在障碍。现在我们已经有了大规模的并行测序，其中许多正在寻求相应的生物信息学分析。

公共数据

基因组序列数据通常是私人的。在2007年至2013年期间，1000个基因组项目是公众“人口规模测序”的初步工作。在它的最后阶段，它提供了来自26个人群的2504人的一些测序覆盖率数据。我们使用这个项目中容易获取的数据作为资源在Databricks社区版中构建一个笔记本。

后续发展

在下一篇博客《并行化基因组变量分析》中，我们将介绍并行生物信息学分析。您也可以直接阅读《基于基因组变量和K均值预测地理种群》。

致谢

我们想对以下资源作出特别的感谢，它们在我们我们创建笔记本时提供了很大的帮助：

大数据基因组ADAM项目
ADAM：云计算的基因组格式和处理模式（Berkeley AMPLab）
Andy Peterlla的基于Spark和ADAM的超快速基因组学和相关的GitHub项目。
Neil Ferguson 利用深度学习对基因组数据进行人口层次化分析。
Matthew Conlen的快速-Viz项目。
Timothy Danford的演讲文件（关于基因组学与Spark）
孟德尔基因组学中心揭示了上百种罕见病的基因组学基础
NIH基因组测序工程，针对的目标是常见病和罕见病的基因
1000基因组计划

同样，我们要感谢Anthony Joseph，Xiangrui Meng，Hossein Falaki和Tim Hunter所做出的额外贡献和反馈。

免费试用Databricks。今天开始

大数据

登录后参与评论

0 条评论

热度

基因组测序简介

基因组测序简介

介绍

基因组测序

一个非常简单的语言类比

基因组测序简介

为什么测序？

公共数据

后续发展

致谢

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐