Nature Biotechnology:谷歌利用深度神经网络开发出SNP和small indel变异检测新工具

大数据时代,如果你不懂点人工智能,没听说过深度学习或者卷积神经网络什么的,或许你真的就OUT了。上个月,谷歌及旗下Verily Life Sciences公司发表了一篇NB的文章,就利用深度卷积神经网络的方法,提高了SNP和small indel的变异检出率。

发表期刊:Nature Biotechnology

发表时间:2018-9-24

影响因子:35.724

具体说来,尽管测序技术发展迅速,但是从数十亿个短的错误reads中准确地检出单个基因组中存在的遗传变异仍然具有挑战性。本研究利用深度卷积神经网络(deep convolutional neural network),通过对假设变异和真实基因型的read堆积图像之间统计关系的学习,来检测下一代测序(NGS) reads数据中的遗传变异。这种被命名为DeepVariant的工具优于现有最先进的方法,可以对多物种、跨平台测序数据进行SNP和small indel变异检测。

研 究 方 法

深度卷积神经网络利用DistBelief搭建框架,并用经过严格筛选的数据进行训练,之后对建立的模型固定,并进行变异检测评价。

研 究 结 果

图1、DeepVariant工作流程图

左框:首先,扫描比对的reads,寻找可能不同于参考基因组的位点。reads和参考数据被编码为每个候选变异位点的图像。用训练过的卷积神经网络(CNN)计算每个位点基因型的可能性。如果最有可能的基因型是杂合子或非参照序列纯合子,就检测为变异位点。中间方框:DeepVariant CNN的训练过程。利用已知基因型样本生成的堆积图像(pileup images),形成图像+基因型对,连同初始CNN (可以是随机模型,其他图像分类测试CNN,或者原始DeepVariant模型)一同被用来进行CNN参数优化,使用随机梯度下降算法(stochastic gradient descent algorithm)最大化基因型预测精度。经过最大数量循环、时间耗尽或者模型性能收敛后,最终训练的模型被frozen并保存下来,用于变异位点的检测。右框:堆积图像评价过程。参考序列、测序read碱基、质量数和其他read特征被编码成红-绿-蓝(RGB)堆积图像。该编码图像提供给CNN以计算纯合子参考(hom-ref)、杂合子(het)、纯合子替代(hom-alt)这三种二倍体基因型状态可能性。在本图例子中最可能的基因型是“het”,得出杂合变异检出结果。在所有框中,蓝色性状代表数据,红色性状代表进程。

表1、对NA24385样本的几种生物信息学方法检测对比结果

表1中使用的数据集与precisionFDA Truth Challenge (pFDA)中使用的数据集相同。比较了包括DeepVariant(GitHub最新版本和pFDA版本)、GATK、SAMtools等多种方法,整个基因组显示了总体准确性(F1,每个变异类型内的排序顺序)、召回率、精确度以及真阳性(TP)、假阴性(FN)和假阳性(FP)的数量。假阳性进一步分为基因型错配(FP.gt)和等位基因错配(FP.al)。

利用CEPH (Centre d’Etude du Polymorphisme Humain) 女性样本NA12878的数据进行训练,之后对Ashkenazi男性样本NA24385进行变异检测,结果如表1所示,在SNP和small indel变异的总体准确性F1指标中排名第一,其余多项指标表现排名居前。

表2、对合成的二倍体样品CHM1-CHM13的几种生物信息学方法检测对比结果

利用相同方法,研究又对合成的二倍体样品CHM1-CHM13进行变异检测评估,结果如表2所示,在SNP和small indel变异的总体准确性F1指标中同样排名第一。

概念回顾:总的样本个数为:TP+TN+FP+FN

TP:预测为1(Positive),实际也为1(Truth-预测对了)

TN:预测为0(Negative),实际也为0(Truth-预测对了)

FP:预测为1(Positive),实际为0(False-预测错了)

FN:预测为0(Negative),实际为1(False-预测错了)

Accuracy = (预测正确的样本数)/(总样本数)=(TP+TN)/(TP+TN+FP+FN)

Precision = (预测为1且正确预测的样本数)/(所有预测为1的样本数) = TP/(TP+FP)

Recall = (预测为1且正确预测的样本数)/(所有真实情况为1的样本数) = TP/(TP+FN)

F1 = 2TP/(2TP+FN+FP)

结 论

◆建立了一种称为DeepVariant的变异检测方法,它用一种深度学习神经网络模型来代替传统的统计建模的方法。

◆在对DeepVariant、GATK、FreeBayes、SAMtools、16GT和Strelka等几种变异检测方法的性能测试中,DeepVariant获得了最高性能评价结果。与次优算法( 9531个错误)相比,DeepVariant在每个基因组上的错误减少了50 %以上( 4652个错误)。

◆对合成二倍体样品CHM1-CHM13评估中,DeepVariant优于所有其他方法检出的SNP和indel方法,并且无需调整过滤阈值或其他参数。

◆除Illumina WGS数据外,对来自PacBio和Ion torrrent测序平台数据同样适用。

创新基因科技,成就科学梦想

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181012B14XI300?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券