专栏首页生信菜鸟团文献阅读 · 变异分析流程--肿瘤基因组测序数据分析专栏

文献阅读 · 变异分析流程--肿瘤基因组测序数据分析专栏

Title

Best practices for variant calling in clinical sequencing

Journal

Genome Medicine volume

Factor

10

Time

2020 Oct 26

Online

https://genomemedicine.biomedcentral.com/articles/10.1186/s13073-020-00791-w

  • 可以确定同一位点每个样本的基因型。
  • 直接推断以确定先证者中的两个杂合位点是顺式还是反式。
  • 可以减轻突变位点的差异问题,避免复杂突变可能存在不准确的问题。

call 突变的工具推荐使用GATK HaplotypeCaller 和 Platypus。也有基于贝叶斯统计方法的 Samtools/BCFtools 和 FreeBayes 。不同工具得到的结果的一致性通常在 90% 以上。 过滤 Artifacts 虽然从上面方法得到的突变结果准确度高达 99.9%,但是依然会由于人为因素而引入了假阳性突变。因此,得到的突变结果需要在 IGV 中进行人工手动的可视化过滤。如:低质量碱基(图 2 a),reads末端的artifacts(图 2 b),由于局部比对错误引起的插入缺失(图 2 c),strand bias artifacts(图 2 d)、低复杂度区域中的错误比对(图 2 e)等 识别de novo mutations 在人群中,de novo mutations 存在一定的频率。可以基于已经公开的数据集,如 gnomAD 进行注释和过滤。一般认为在人群中 MAF > 0.0001(也有人说是0.001),更有可能是 germline mutation。 拷贝数和结构变异 拷贝数变异 CNV 是人类遗传变异的另一种类型,与许多疾病相关,如抑郁症 autism,智力底下 intellectual disability,先天性心脏病 congenital heart disease。NGS 在临床上也有应用于 CNV 检测,相应的工具有:cn.MOPS 、CONTRA、CoNVEX、ExomeCNV、ExomeDepth 和 XHMM。如果是全基因组测序,还有检测结构变异 SV,常用的软件有 DELLY 、Lumpy 、Manta 、Pindel 和 SVMerge ,但由于二代测序的 reads 读长较短,检测 SV 仍然存在挑战性。 拷贝数变异和 SV 可以通过 IGV 进行可视化查看:

  • 如A图中先证者存在约 4kb 的杂合 del,而母亲在这个位置都没有 reads 覆盖,则是纯合缺失,父亲正常。
  • B图则显示两个亲本都是杂合缺失,先证者是纯合缺失
  • C图父亲和先证者都是杂合缺失
  • D图覆盖深度上可以看到绿色的reads显示先证者和母亲存在的串联重复

由于短读长测序在检测 SV 上的准确性只有0.8~0.9,因此,对于 SV 变异,可以基于“黄金标准”参考数据集进行验证,已有多个 SV 数据集发布:GIAB 、HS1011 和 HuRef 。 Somatic mutation 的分析最佳流程 对于体细胞突变 Somatic mutation,应用最多的便是肿瘤研究。临床上更关心的是体细胞突变、拷贝数变异和融合基因等与临床表征是否相关,通常需要肿瘤-正常样本配对进行分析。 call 突变 使用最广泛的工具是 Mutect2 ,Strelka2,VarScan2 ,采用 肿瘤和正常配对的模式,一般结合两个或多个工具可以得到较好的结果。 但是由于临床样本存在肿瘤纯度的问题,且存在亚克隆突变导致很多体细胞突变频率较低,使得难以检测出来。还有就是临床样本很多是 FFPE 样本,存在 DNA 损伤,造成各种假阳性,对检测工具来说都是具有挑战性的。 体细胞突变的过滤

  • 与 germline mutation一样,需要在 IGV 进行可视化过滤,人工手动筛查,基于 tumor 和normal 的 bam 文件
  • 人群数据库过滤,如dbSNP 和 gnomAD ,不能一刀切过滤掉 dbSNP 数据库中的所有位点,因为该数据库包含许多来自人类肿瘤的重复突变——例如PIK3CA 的 p.(H1047R) (rs121913279) 和IDH1 的p.(R132H) ( rs121913500)。作者建议以 GnomeAD 或 TopMed 数据库注释的 minimum minor allele frequency > 0.0001 作为过滤的阈值。前文也提到过这个阈值,同样也有人建议 0.001 。
  • 基于一组正常样本(通常是50个)的 PoN(Panel of Normal) 进行过滤:这有利于排除掉 germline mutation 和由于实验或测序技术造成的 artifacts。
  • 肿瘤和正常样本在突变位点的 reads 覆盖度 > 10x

体细胞拷贝数变异 对于体细胞拷贝数变异 SCAN 分析,同样也是建议使用多个工具结果,如 GATK 和 VarScan2 ,分析过程中纳入 VAF 可以为体细胞拷贝数变异提供支持证据。同样采用正常人群的 PoN 可以提高结果的准确性。 评论 文章作者仅仅是阐述了从原始的 fastq 文件到得到变异结果即 vcf 文件或拷贝数变异的 segment 文件的过程以及涉及到的工具。而实际上,我们得到突变结果之后还要对突变进行注释,基于注释结果的过滤。过滤之后还有更多分析,如肿瘤异质性、TMB评估、克隆分析、突变特征分析 Mutation Signature、肿瘤纯度评估、驱动突变的推断、MSI 评估、新抗原预测等。 这些分析和可视化用到的众多工具或R包,其安装方法和使用方法都有一定难度。本系列文章的后续推文,将就这些分析进行文献解读和工具使用方法介绍。

本文分享自微信公众号 - 生信菜鸟团(bio_123456789),作者:Nickier

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2021-09-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 单细胞分析揭示葡萄膜黑色素瘤新的进化复杂性

    每个人的时间精力有限,必须优先阅读相关文献,开设这个栏目也是希望为大家推荐高质量的单细胞相关文献。如果大家对单细胞转录组感兴趣可以关注一下,哪怕每天只学一点点,...

    生信技能树jimmy
  • 癌症基因组学的未来:将数据转化为应用

    大数据文摘
  • 单细胞转录组的肿瘤研究3大应用方向等你来攻克

    这些年陆陆续续阅读了近百篇该领域的CNS文献,所以我大概总结了单细胞转录组技术肿瘤研究3大应用方向

    生信技能树
  • 肿瘤内异质性分析—TARGET-seq

    当你的才华还撑不起你的野心时,请潜下心来,脚踏实地,跟着我们慢慢进步。不知不觉在单细胞转录组领域做知识分析也快两年了,通过文献速递这个栏目很幸运聚集了一些小伙伴...

    生信技能树jimmy
  • 一个简单转录组测序数据发两篇sci(你也可以!)

    最近看到群里有小伙伴在讨论一个数据集 GSE140275 ,我发现它这个简单转录组测序数据发两篇sci,是关于 acute ischemic stroke ...

    生信技能树
  • 多靶点自体免疫细胞技术

    本期文章题目是 Immune recognition of somatic mutations leading to complete durable regr...

    生信技能树jimmy
  • 纯生信也能发到18分!这个预后型Biomarker套路,感觉没什么难度!

    我们都知道癌症的特点是不同的基因改变积累,导致癌细胞表面出现不同的新抗原表达。人体免疫系统是机体发现和消灭肿瘤细胞的可靠“人体警察”。然而,肿瘤细胞可以利用机体...

    DoubleHelix
  • 人类结直肠癌单细胞多组学分析

    每个人的时间精力有限,必须优先阅读相关文献,开设这个栏目也是希望为大家推荐高质量的单细胞相关文献。如果大家对单细胞转录组感兴趣可以关注一下,哪怕每天只学一点点,...

    生信技能树jimmy
  • 单细胞测序如何指导临床问题?看这篇paper就够了

    几个月前的NGS创新者大会在杭州碰到了联川生物的沈总,说非常希望可以跟我们单细胞天地合作共同推广单细胞技术,就有了这个系列.

    生信技能树jimmy
  • 爱恨难分—癌症免疫治疗获得性抗性

    每个人的时间精力有限,必须优先阅读相关文献,开设这个栏目也是希望为大家推荐高质量的单细胞相关文献。如果大家对单细胞转录组感兴趣可以关注一下,哪怕每天只学一点点,...

    生信技能树jimmy
  • 骨髓基质在动态平衡和白血病中的细胞分类

    当你的才华还撑不起你的野心时,请潜下心来,脚踏实地,跟着我们慢慢进步。不知不觉在单细胞转录组领域做知识分析也快两年了,通过文献速递这个栏目很幸运聚集了一些小伙伴...

    生信技能树jimmy
  • scRNA-seq揭示胰腺导管腺癌的瘤内异质性和恶性进展

    当你的才华还撑不起你的野心时,请潜下心来,脚踏实地,跟着我们慢慢进步。不知不觉在单细胞转录组领域做知识分析也快两年了,通过文献速递这个栏目很幸运聚集了一些小伙伴...

    生信技能树jimmy
  • 远离癌症并不难: 再谈肿瘤检测与精准医疗

    大数据文摘
  • 甲基化的一些基础知识

    同样的策略,我们也可以应用到其它领域的知识背景快速学习,比如我们的lncRNA系列,miRNA系列,现在我们一起学习一下DNA甲基化吧。

    生信技能树
  • TCGA数据库挖掘肿瘤相关基因突变(1)

    TCGA(The Cancer Genome Atlas)是美国国家癌症研究所(NCI)和美国人类基因组研究所(NHGRI)共同开发的大型肿瘤研究项目,旨在通过...

    用户6317549
  • scRNA-seq课程第一单元-背景介绍

    14年高考没考好,阴差阳错读了某二本的生物信息学专业,是我们学校生物信息学专业的第一届(xiao)学(bai)生(shu),记得刚进校门整个班的同学围着老师问生...

    生信技能树jimmy
  • 结直肠癌细胞异质性大揭秘!

    每个人的时间精力有限,必须优先阅读相关文献,开设这个栏目也是希望为大家推荐高质量的单细胞相关文献。如果大家对单细胞转录组感兴趣可以关注一下,哪怕每天只学一点点,...

    生信技能树jimmy
  • 100篇泛癌研究文献解读之PhyloWGS算法的肿瘤内部异质性和基因组不稳定性

    为了分析不同类型、组织起源肿瘤的共性、差异以及新课题。TCGA于2012年10月26日-27日在圣克鲁兹,加州举行的会议中发起了泛癌计划。参考:https://...

    生信技能树
  • 癌症“登月计划”需要大数据作后盾

    大数据文摘

扫码关注云+社区

领取腾讯云代金券