谷歌跨界医学新动作:基因突变定位模型又更!新!了!

Root 编译自 Google Research Blog 量子位 出品 | 公众号 QbitAI

去年12月,谷歌大脑发布了快速找出基因突变位点的深度学习模型DeepVariant,用图像识别的思路来精准定位出基因序列中突变的位点。

时隔5个月,谷歌大脑于今日再次更新Deepvariant,发布了0.6.0版本。

比起之前的第一版,新版在准确率上会有重大的提升。针对两个典型的测序场景——全外显子组测序,PCR,谷歌大脑团队作出了特定的优化。下面介绍一下DeepVariant相应的训练过程。

基因序列数据

一般来港,序列数据的种类多到眼花。

种类繁杂的原因有好几个:

1)人体DNA的提取有不同的来源。唾液、血液、脱落的皮屑都OK; 2)DNA样本的处理方法有好几种; 3)DNA扩增的倍数可变; 4)DNA扩增的位置可选。

理论上,找到基因突变位点的工具可以根据特定的数据类型,进行微调。但即使时间不限,配上经验丰富的专家来做这个微调的工作,也不可能做到每种数据类型都出一个与之匹配的工具。这不科学。

但用Deepvariant模型就不一样了。

谷歌大脑团队可以根据新的数据类型要求,给模型喂代表性的数据,这样训练下来,提高准确率的同时,也能保证最终表现不受负面影响。

找寻基因突变的挖井人

深度学习模型依赖高质量的训练评估数据。

在测序领域里,归属于美国技术标准协会的瓶中基因组联盟(Genome in a Bottle,GIAB)拥有人类基因组数据,主要用于技术发展,基因评测和优化。

这个数据得来不易。

瓶中基因组联盟大量牵头做了大量的工作,最后才有了高保真度的基因组信息。这些工作包括但不限于:用尽目前已有的测序方法;把所有找寻基因突变的工具都折腾了一遍;复制了无数遍同一个人的DNA。

DeepVariant的大部分训练数据来自于GIAB第一个发布的的标准比对基因组,HG001。这个基因组的样本贡献者是一名北欧女士,也属于国际人类基因组单体型项目。

该项目是首个大规模尝试确认人类基因差异中的共同模式。

因为HG001的DNA是商用的,也富有代表性,所以很多新测序方法出来之前会拿HG001来“练手”。

用HG001里的多种复制版本和不同的数据类型,训练DeepVariant模型的话,可以提高数据类型分类的准确性,还能泛化出之前没见过的数据类型。

0.5.0版本:进化版的外显子模型

在发布0.5.0版本的时候,我们采用了兼容标准的训练思路,用的是HG002样本,第20条染色体的所有数据。

HG002,是GIAB公布的第二个基准基因组,来自一个犹太人男子。

取性别不同、种族不同的HG001和HG002的数据,可以帮助DeepVariant在面对种群的多样性时有更好的表现。

在0.5.0版本里,谷歌关注点落在了外显子数据上。

外显子只占到整个基因组信息的1%,专门指导机体产生蛋白质。很多临床上重大的基因病就是在某处外显子出了问题。

为了增加外显子序列(WES,whole exome sequencing)的精确性,谷歌特地添加了全外显子组这个数据种类,其训练数据由DNAnexus提供。

结果发现,全外显子组模型的误插误删率降低了43%,单核苷酸复制错误率降低了22%。

HG002的外显子序列错误率如上图所示。左侧显示的错误是误插误删,右边是单个核苷酸复制错了。黄色部分表示假阳性的错误,蓝色部分指的是假阴性错误。

从图可以看出,错误率降低最佳的表现出现在0.5版那次更新。

DNA扩增数据的优化

最新的0.6.0版本,解决的主要是序列拼接前,扩增数据精度提升的问题。

PCR,聚合酶链式反应,是相当便宜又简单的扩增方法。但扩增后容易出错,所以现在多用非PCR方法来准备DNA样本了。

DeepVariant之前版本的训练数据因为完全没有用PCR,所以对于用到了PCR的数据,前几版的DeepVariant的外部评测表现就不太好。

但这回,谷歌到脑添加了PCR+的训练数据,现在这种数据类型的处理准确率就显著提升,误插误删概率降低了60%。

左侧是DNAnexus评测结果,右边是bcbio的。

DNAnexus、bcbio对最新版DeepVariant的独立评测结果看这里:

http://t.cn/RmkpEQ9

http://dwz.cn/7P8CAT

谷歌借助这些分析报告,了解到DeepVariant和其他找基因变异位点工具存在的不同,并进一步降低了错误率。

最新版的代码同样已经开源,谷歌大脑希望感兴趣的人能参与进来一起推动测序行业的发展。

如果大家认为某种类型的数据值得谷歌团队留意,可直接联系:https://github.com/google/deepvariant/issues

最后,附最新版DeepVariant更新说明: https://github.com/google/deepvariant/releases/tag/v0.6.0

原文发布于微信公众号 - 量子位(QbitAI)

原文发表时间:2018-04-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据科学与人工智能

【机器学习】Python语言下的机器学习库

Python是最好的编程语言之一,在科学计算中用途广泛:计算机视觉、人工智能、数学、天文等。它同样适用于机器学习也是意料之中的事。 当然,它也有些缺点;其中一个...

26410
来自专栏数说戏聊

Tableau构建消费者信心指数动态监测

1082
来自专栏每日一篇技术文章

opengL ES _ 入门_05

ID是漫反射的强度,Ii是光的入射光的强度,和KD的漫反射,是对粗糙松散耦合对象材料。松散的意思是,在许多现实世界的材料,实际表面可能有点抛光,但半透明的,而层...

1613
来自专栏机器学习算法与Python学习

自然语言处理(4)之中文文本挖掘流程详解(小白入门必读)

关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第一 【Python】:排名第三 【算法】:排名第四 前言 在对文本做数据分析时,一大半的...

5894
来自专栏北京马哥教育

Python自然语言处理分析倚天屠龙记

? 转载自:Python中文社区 ID:python-china 最近在了解到,在机器学习中,自然语言处理是较大的一个分支。存在许多挑战。例如: 如何...

4586
来自专栏机器学习算法原理与实践

中文文本挖掘预处理流程总结

在对文本做数据分析时,我们一大半的时间都会花在文本预处理上,而中文和英文的预处理流程稍有不同,本文就对中文文本挖掘的预处理流程做一个总结。

3193
来自专栏小鹏的专栏

是AI就躲个飞机-纯Python实现人工智能

代码下载:Here。 很久以前微信流行过一个小游戏:打飞机,这个游戏简单又无聊。在2017年来临之际,我就实现一个超级弱智的人工智能(AI),这货可以躲避从...

1K5
来自专栏生信技能树

如何通过Google来使用ggplot2可视化

今天是大年初二,这篇文章我只想传达一点: 没有什么菜鸟级别的生物信息学数据处理是不能通过Google得到解决方案的,如果有,请换个关键词继续Google! 第一...

3328
来自专栏生信技能树

比较不同单细胞转录组数据寻找features方法

挑选到的跟feature相关的基因集,有点类似于在某些组间差异表达的基因集,都需要后续功能注释。 背景介绍 单细胞转录组测序的确可以一次性对所有细胞都检测到上千...

81710
来自专栏Python小屋

Python计算电场中两点间的电势差

根据组合数定义,需要计算3个数的阶乘,在很多编程语言中都很难直接使用整型变量表示大数的阶乘结果,虽然Python并不存在这个问题,但是计算大数的阶乘仍需要相当多...

961

扫码关注云+社区

领取腾讯云代金券