专栏首页ATYUN订阅号谷歌发布深度学习模型DeepVariant新版本:旨在提高基因组数据精确度

谷歌发布深度学习模型DeepVariant新版本:旨在提高基因组数据精确度

AiTechYun

编辑:chux

去年12月,谷歌发布了DeepVariant。这是一种深度学习模型,研究者训练它分析基因序列,使其准确地识别其中的差异,这种差异就是所谓的变体,它让我们每个人都作为独一无二的个体存在着。我们在最初的文章里主要关注的问题是,DeepVariant如何将识别变体(variant calling)作为图像分类问题来解决,并且得到结果能够比以前的方法更精确。

今天,谷歌宣布推出DeepVariant v0.6,重点在于提高精确度。在这篇文章中,主要阐述了研究者如何训练DeepVariant,如何通过将代表性数据添加到DeepVariant的训练进程中,以提高DeepVariant的精确度,并将其应用于两个常见的测序中——完整的外显子组测序和聚合酶链式反应测序。

测序数据的多种类型

基因组测序方法取决于以下几种因素:DNA样本的类型(如血液或唾液),DNA的处理技术(如放大技术),用来进行数据测序的技术(例如,使用的仪器甚至可以是同一个制造商的不同设备),使用哪一部分基因组,使用多少基因组序列……这些差异导致测序数据类型繁多。

通常,识别变体工具已经调整了特定的数据类型,但在其他类型上表现较差。考虑到为新的数据类型调整识别变体,可能会花费大量时间,也会涉及到专门知识,为每个人定制不同的工具似乎并不可行。相对地,利用DeepVariant,我们可以提高新的数据类型的精确度,方法是在训练过程中加入代表性数据,这样也不会对整体表现造成负面影响。

识别变体的真值

深度学习模型依赖用于培训和评估的高质量数据。在基因组学领域,由NIST发起的Genome in a Bottle (GIAB)财团生产的人类基因组,用于技术开发、评估和优化。使用GIAB标准基因组的好处是,它们的真实序列是已知的(至少在目前可能的范围内)。为了实现这一目标,GIAB采用了单人的DNA,多次使用各种实验室方法和测序技术(涉及很多数据类型)对其进行测序,并使用各种不同的识别变体工具分析数据结果。此外,为评估和判定差异进行大量研究,从而使每个基因组产生一个具有高信度的“真值集”。

DeepVariant的大多数训练数据都出自GIAB HG001投放的第一批标准基因组。样本来源于一个有北欧血统的女性,可从International HapMap Project获得,对于识别常见的人类基因变异模式,这一项目是目前人类做出的规模最大的尝试。因为从HG001获取的DNA可商用而且特征明显,所以常被用作首批样本,以测试新的测序技术和识别变体工具。通过使用HG001中的复制品和不同的数据类型,我们可以得到无数训练实例,可用于帮助DeepVariant学习如何精确将不同的数据类型进行分类,甚至是推广到前所未有的数据类型中。

v0.5版本中经过改良的外显子组模型

在发布的v0.5版本中,制定了与标准兼容的训练策略,暂时回避了完备样本HG002,以及任何来自染色体20的数据。HG002是GIAB投放的第二批标准基因组,提取自一个德系犹太种族的男性。这一样本的性别和种族都与HG001不同,确保了DeepVariant在多样化种群方面表现良好。此外,为测试准备的染色体20,使得对于任何包含真值的数据类型,用DeepVariant评估的精确度都可以得到保证。

v0.5版本中,我们还关注了外显子组数据,它是直接为蛋白质合成指定遗传密码的基因组子集。外显子组在整个人类基因组占比不到1%,所以整个外显子组测序(WES)的成本远低于完整基因组测序(WGS)。外显子组包含许多临床意义上的变体,因此它对研究人员和临床医生都很有用。为了提高外显子组的结果精确度,我们在DeepVariant的训练数据中,加入了DNAnexus提供的各种WES数据类型。v0.5版本中的WES模型显示,减少了43%的indel(插入-缺失)错误,同时减少了22%的单核苷酸多态性(SNP)错误。

DeepVariant所有版本的HG002外显子组的错误总数,分别为indel错误(左)和SNP错误(右)。

错误可能是假阳性(FP),用黄色代表,抑或是假阴性(FN),用蓝色代表。

精度最显著的提高在v0.4和v0.5版本之间,可能是由于indel FPs的减少。

v0.6版本中,用PCR+数据改进完整基因组测序模型

DeepVariant最新的v0.6版本,致力于改进数据的精确度,并在测序前,通过聚合酶链式反应(PCR)放大DNA。PCR用来放大非常微小的DNA,既简单、成本又低,毕竟在以前测序结果也被称为阳性PCR(PCR+)测序数据。然而PCR可能会带来偏差和错误,而不基于PCR(或PCR-free)的DNA制备方法也越来越普遍。在v0.6版本发布之前,DeepVariant的训练数据都是清一色的PCR-free数据,而DeepVariant进行外部评估表现不佳时,PCR+是为数不多表现良好的数据类型。因此,在DeepVariant训练数据中加入DNAnexus提供的PCR+实例,我们也能看出这一数据类型的精确度显著提高,indel错误减少了60%。

DeepVariant v0.6版本显示了PCR+数据的精确度提高,主要归由于indel错误的减少。我们重新分析了两个之前用在外部评估的PCR+样本,包括左边的DNAnexus和右边的bcbio,两图显示了indel精确度是如何随着DeepVariant版本升级而提高的。

DeepVariant v0.6中,来自DNAnexus和bcbio的独立评价仍然可用。他们的分析支持我们提高indel的精确度,还包括与其他识别变体工具进行比较。

总结

谷歌开源了DeepVariant,鼓励合作,期望利用这项技术来解决现实世界的问题。随着测序技术的发展创新,越来越多的临床应用不断涌现,DeepVariant也有更广阔的发展空间,期待这一技术在未来能够提供更为精确的结果。

本文分享自微信公众号 - ATYUN订阅号(atyun_com),作者:chux

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-04-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 研究人员开发行人跟踪算法DensePeds,速度提高了4.5倍

    用AI追踪公共广场上的密集的人是非常合适的,马里兰大学和北卡罗来纳大学的团队最近提出了一种新颖的行人跟踪算法DensePeds,能够通过预测动作来监控患有幽闭恐...

    AiTechYun
  • 微软因果推理框架DoWhy入门

    人类的大脑有一种非凡的能力,能将原因与特定的事件联系起来。从选举的结果到掉在地板上的物体,我们不断地把引起特定效果的一系列事件联系起来。神经心理学将这种认知能力...

    AiTechYun
  • Berkeley研究:机器学习决策的偏见及对弱势群体的潜在影响

    经过训练以减少预测误差的机器学习系统通常会根据敏感特征(如种族和性别)呈现歧视行为。一个原因可能是由于数据中的历史偏见。在包括贷款,招聘,刑事司法和广告在内的各...

    AiTechYun
  • 绘图系列(1):利用matplotlib绘制等值线图

    绘图系列是为了给出一些图形绘制示例,便于快速绘制一些图形。此系列不受所用语言和工具的限制,可能会使用 python,matlab,ncl,idl以及其它一些语言...

    bugsuse
  • cache 淘汰算法:LIRS 算法

    LIRS 算法是非常优秀的 cache 淘汰算法,被用于 mysql 5.1之后的版本,这篇文章主要来源于对 LIRS 的发表论文的翻译。

    钱坤
  • 「 互联网笔试题 」No.4答案与解析

    1、下列哪个修饰符的方法不能被子类调用?( C ) A. Public B. Protected C. Private

    KEN DO EVERTHING
  • Caffe:CPU模式下使用Intel MKL做mnist训练

    版权声明:本文为博主原创文章,转载请注明源地址。 https://blog.csdn.net...

    用户1148648
  • Flink滑动窗口原理与细粒度滑动窗口的性能问题

    Flink的窗口机制是其底层核心之一,也是高效流处理的关键。Flink窗口分配的基类是WindowAssigner抽象类,下面的类图示出了Flink能够提供的所...

    王知无
  • 我精心勾兑的一锅地沟油,你喝都不敢喝,凭什么说爱我?

    VRPinea
  • CSS背景图像,镜像翻转、缩放、背景偏移与定位、文字溢出处理

    此处,rotateY(180deg) 这里的 Y 表示元素以Y轴镜像翻转,也即水平翻转;同理,  rotateX(180deg) 表示以X轴为镜像翻转,即垂直翻...

    AlexTao

扫码关注云+社区

领取腾讯云代金券