谷歌开源DeepVariant,之前的经典检测基因变异法将被颠覆

来源:research.googleblog.com

编译:马文

【新智元导读】今天,谷歌开源了DeepVariant深度学习模型,这是将基因组中的识别变异(variant calling)任务转换为图像分类问题的基因组学工具,在重构基因组序列方面比以前的经典方法具有更高的准确性。同时谷歌提供可扩展的基于云的解决方案,以满足大型基因组数据集的需求。

在许多科学领域,特别是在基因组学领域,重大突破通常是由新技术带来的。从使人类基因组测序成为可能的Sanger测序法,到首次实现大规模全基因组实验的微阵列技术,新的仪器和工具使我们能够更深入地了解基因组,研究的结果广泛应用于医疗、农业、生态等领域。

基因组学中最具变革性的新技术之一是高通量测序技术( high-throughput sequencing ,HTS),该项技术在21世纪初首先实现了商业化应用。HTS让科学家和临床医生能够快速、低成本而且大规模地生成测序数据。但是,HTS仪器的输出并不是被分析个体的基因组序列——对于人类来说,这意味着30亿个碱基对(鸟嘌呤,胞嘧啶,腺嘌呤和胸腺嘧啶)组成的23对染色体。相反,这些仪器产生的是大约10亿个短序列,称为reads。每个reads仅代表30亿个碱基中的100个,每个碱基的错误率在0.1-10%的范围内。因此,将HTS输出处理成单一、准确并且完整的基因组序列是一个主要的突出挑战。这个问题在生物医学应用领域尤其重要,这促使GIAB(Genome in a Bottle Consortium)等组织的努力,他们发布了人类标准参考基因组,可用于验证和基准测试,以及precisionFDA挑战赛,这个比赛旨在促进创新,提高基于HTS的基因组测试的质量和准确性。

图:对于基因组中的任何给定位置,在大约10亿reads中有多个reads包含该位置的一个碱基。每个read与一个参考碱基对齐,然后将read中的每个碱基与该位置的参考碱基进行比较。当一个read包含一个与参考碱基不同的碱基时,它可能表示一个变异(真实序列的差异),也可能是一个错误。

今天,谷歌发布DeepVariant的开源版本(github.com/google/deepvariant),DeepVariant是一种深度学习技术,可以从HTS定序器数据中重构真正的基因组序列,比以前的经典方法具有更高的准确性。这项工作是谷歌大脑团队与Verily Life Sciences合作进行了两年多的研究的成果。DeepVariant将识别变异(variant calling)任务,即基因组中的重构问题转化为适合谷歌现有技术和专业知识的图像分类问题。

以上4个图像都是与参考基因组对齐的实际测序仪reads的可视化。一个关键的问题是如何使用这些reads来确定在两条染色体上存在变异,还是仅存在一条染色体上,还是在两条染色体上都不存在变异。有不止一种类型的变异,其中SNP和插入/缺失变异(insertion/deletion )是最常见的。 A:一对染色体上真正的SNP;B:一条染色体上的缺失;C:两条染色体上的缺失;D:由于错误引起的变异。用这种方式进行可视化时,很容易看出这些变异的差别。

我们从GIAB参考基因组开始,因为它提供了高质量的真实值(或者当前可能的最接近的近似值)。 使用这些基因组的多个重复(replicate),我们以编码HTS仪器数据的多通道张量的形式产生了数千万的训练样本,然后训练基于TensorFlow的图像分类模型,目的是从生成的实验数据中识别真实的基因组序列。尽管由此产生的深度学习模型DeepVariant没有关于基因组学或HTS的专业知识,但在一年时间里,它已经赢得了precisionFDA Truth Challenge 最高SNP准确率,超越了最优的方法。自那时起,我们进一步将错误率降低了50%以上。

DeepVariant现在作为开源软件发布,以鼓励协作及加速使用这项技术来解决现实世界的问题。为了实现这一目标,我们与Google Cloud Platform(GCP)合作,在GCP上部署了DeepVariant workflow,用户可以在当前的计算环境中探索和评估DeepVariant的功能,同时我们提供了可扩展的基于云的解决方案,以满足即使是最大的基因组数据集的需求。

DeepVariant 将利用谷歌的计算基础架构和ML专业知识来更好地理解基因组,并为研究社区提供基于深度学习的基因组学工具。这是将谷歌技术应用于医疗保健和其他科学应用,并使这些努力的结果广泛可用的目标的一部分。

原文:https://research.googleblog.com/2017/12/deepvariant-highly-accurate-genomes.html

DeepVariant :https://github.com/google/deepvariant

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2017-12-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏ATYUN订阅号

AI研究新突破:利用神经网络预测新的化合物

佛罗里达州立大学的一个研究小组开发了一种AI系统,用来识别数十万个假想的晶体结构中的哪一个可以预测新的化合物。

10730
来自专栏人工智能快报

深度学习能使细胞和基因图像更加清晰

卷积神经网络的深度学习使计算机更加有效、全面的处理图像,生物学领域正在逐渐运用这一技术,它能使细胞、基因等图像更加清晰,使机器看到更多人类从未见过的东西。 眼睛...

40650
来自专栏大数据文摘

迷人又诡异的辛普森悖论:同一个数据集是如何证明两个完全相反的观点的?

在辛普森悖论中,餐馆可以同时比竞争对手更好或更差,锻炼可以降低和增加疾病的风险,同样的数据集能够用于证明两个完全相反的论点。

13530
来自专栏人工智能快报

麻省理工研制出硅基人工神经突触

为制造出便携式的“大脑芯片”,麻省理工学院的科研人员用单晶硅成功制作出了人工神经突触,这大大促进了人造硬件的发展。 当谈到处理能力时,人类的大脑是无法被击败的。...

380150
来自专栏PPV课数据科学社区

五类受自然启发的AI算法

摘要: 本文主要讲解了受自然启发的五类AI算法以及各自的实际用例:神经网络、遗传算法、群集集体智慧、强化学习、人体免疫。 ? 搜索/寻路算法 搜索算法...

40640
来自专栏机器之心

前沿 | 机器学习助力医疗,通过数据分析发现近6000种新病毒

选自Nature 作者:Amy Maxmen 机器之心编译 参与:黄小天、刘晓坤 最近,研究者借助 AI 技术发现了近 6000 种前所未闻的新病毒,这一工作已...

35990
来自专栏生信技能树

RNA-seq数据分析指南

五月份看了一篇2016年的RNA-Seq文献综述,那篇文献特别长,花了三四天时间才看完。当时为了做组会文献报告做了一些许总结,以ppt的形式呈现出来。 内容 前...

2K70
来自专栏人工智能快报

科学家使用深度学习研制生物医药

美国伊利诺伊大学香槟分校与加利福尼亚大学洛杉矶分校合作开发了一款新的用于医学研究的机器学习系统。 目前约有1100种已知的可以穿透微生物膜的具有不同序列的抗菌肽...

278110
来自专栏量子位

AI为癌细胞杀手“染色”,辅助医生选择治疗方案 | 附论文

白细胞家族里有一种特殊的存在,叫做肿瘤浸润淋巴细胞 (TIL)。当人体内有了肿瘤,它们就会从血液中出发,前往肿瘤所在的地方,并在那里浴血奋战。

9140
来自专栏新智元

【伪科学争议】谷歌研究员两万字批驳上交大用深度学习推断犯罪分子

【新智元导读】 不久前, 上海交通大学的两位研究者发布了一项题为“利用脸部照片自动推断犯罪性”的研究,利用基于有监督的机器学习的方法,根据人的脸部特征预测一个人...

39350

扫码关注云+社区

领取腾讯云代金券