前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >文献阅读 · 变异分析流程--肿瘤基因组测序数据分析专栏

文献阅读 · 变异分析流程--肿瘤基因组测序数据分析专栏

作者头像
生信菜鸟团
发布2021-09-17 14:24:46
1.3K0
发布2021-09-17 14:24:46
举报
文章被收录于专栏:生信菜鸟团生信菜鸟团

Title

Best practices for variant calling in clinical sequencing

Journal

Genome Medicine volume

Factor

10

Time

2020 Oct 26

Online

https://genomemedicine.biomedcentral.com/articles/10.1186/s13073-020-00791-w

  • 可以确定同一位点每个样本的基因型。
  • 直接推断以确定先证者中的两个杂合位点是顺式还是反式。
  • 可以减轻突变位点的差异问题,避免复杂突变可能存在不准确的问题。

call 突变的工具推荐使用GATK HaplotypeCaller 和 Platypus。也有基于贝叶斯统计方法的 Samtools/BCFtools 和 FreeBayes 。不同工具得到的结果的一致性通常在 90% 以上。 过滤 Artifacts 虽然从上面方法得到的突变结果准确度高达 99.9%,但是依然会由于人为因素而引入了假阳性突变。因此,得到的突变结果需要在 IGV 中进行人工手动的可视化过滤。如:低质量碱基(图 2 a),reads末端的artifacts(图 2 b),由于局部比对错误引起的插入缺失(图 2 c),strand bias artifacts(图 2 d)、低复杂度区域中的错误比对(图 2 e)等 识别de novo mutations 在人群中,de novo mutations 存在一定的频率。可以基于已经公开的数据集,如 gnomAD 进行注释和过滤。一般认为在人群中 MAF > 0.0001(也有人说是0.001),更有可能是 germline mutation。 拷贝数和结构变异 拷贝数变异 CNV 是人类遗传变异的另一种类型,与许多疾病相关,如抑郁症 autism,智力底下 intellectual disability,先天性心脏病 congenital heart disease。NGS 在临床上也有应用于 CNV 检测,相应的工具有:cn.MOPS 、CONTRA、CoNVEX、ExomeCNV、ExomeDepth 和 XHMM。如果是全基因组测序,还有检测结构变异 SV,常用的软件有 DELLY 、Lumpy 、Manta 、Pindel 和 SVMerge ,但由于二代测序的 reads 读长较短,检测 SV 仍然存在挑战性。 拷贝数变异和 SV 可以通过 IGV 进行可视化查看:

  • 如A图中先证者存在约 4kb 的杂合 del,而母亲在这个位置都没有 reads 覆盖,则是纯合缺失,父亲正常。
  • B图则显示两个亲本都是杂合缺失,先证者是纯合缺失
  • C图父亲和先证者都是杂合缺失
  • D图覆盖深度上可以看到绿色的reads显示先证者和母亲存在的串联重复

由于短读长测序在检测 SV 上的准确性只有0.8~0.9,因此,对于 SV 变异,可以基于“黄金标准”参考数据集进行验证,已有多个 SV 数据集发布:GIAB 、HS1011 和 HuRef 。 Somatic mutation 的分析最佳流程 对于体细胞突变 Somatic mutation,应用最多的便是肿瘤研究。临床上更关心的是体细胞突变、拷贝数变异和融合基因等与临床表征是否相关,通常需要肿瘤-正常样本配对进行分析。 call 突变 使用最广泛的工具是 Mutect2 ,Strelka2,VarScan2 ,采用 肿瘤和正常配对的模式,一般结合两个或多个工具可以得到较好的结果。 但是由于临床样本存在肿瘤纯度的问题,且存在亚克隆突变导致很多体细胞突变频率较低,使得难以检测出来。还有就是临床样本很多是 FFPE 样本,存在 DNA 损伤,造成各种假阳性,对检测工具来说都是具有挑战性的。 体细胞突变的过滤

  • 与 germline mutation一样,需要在 IGV 进行可视化过滤,人工手动筛查,基于 tumor 和normal 的 bam 文件
  • 人群数据库过滤,如dbSNP 和 gnomAD ,不能一刀切过滤掉 dbSNP 数据库中的所有位点,因为该数据库包含许多来自人类肿瘤的重复突变——例如PIK3CA 的 p.(H1047R) (rs121913279) 和IDH1 的p.(R132H) ( rs121913500)。作者建议以 GnomeAD 或 TopMed 数据库注释的 minimum minor allele frequency > 0.0001 作为过滤的阈值。前文也提到过这个阈值,同样也有人建议 0.001 。
  • 基于一组正常样本(通常是50个)的 PoN(Panel of Normal) 进行过滤:这有利于排除掉 germline mutation 和由于实验或测序技术造成的 artifacts。
  • 肿瘤和正常样本在突变位点的 reads 覆盖度 > 10x

体细胞拷贝数变异 对于体细胞拷贝数变异 SCAN 分析,同样也是建议使用多个工具结果,如 GATK 和 VarScan2 ,分析过程中纳入 VAF 可以为体细胞拷贝数变异提供支持证据。同样采用正常人群的 PoN 可以提高结果的准确性。 评论 文章作者仅仅是阐述了从原始的 fastq 文件到得到变异结果即 vcf 文件或拷贝数变异的 segment 文件的过程以及涉及到的工具。而实际上,我们得到突变结果之后还要对突变进行注释,基于注释结果的过滤。过滤之后还有更多分析,如肿瘤异质性、TMB评估、克隆分析、突变特征分析 Mutation Signature、肿瘤纯度评估、驱动突变的推断、MSI 评估、新抗原预测等。 这些分析和可视化用到的众多工具或R包,其安装方法和使用方法都有一定难度。本系列文章的后续推文,将就这些分析进行文献解读和工具使用方法介绍。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-09-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信菜鸟团 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档