Title | Best practices for variant calling in clinical sequencing |
---|---|
Journal | Genome Medicine volume |
Factor | 10 |
Time | 2020 Oct 26 |
Online | https://genomemedicine.biomedcentral.com/articles/10.1186/s13073-020-00791-w |
call 突变的工具推荐使用GATK HaplotypeCaller 和 Platypus。也有基于贝叶斯统计方法的 Samtools/BCFtools 和 FreeBayes 。不同工具得到的结果的一致性通常在 90% 以上。 过滤 Artifacts 虽然从上面方法得到的突变结果准确度高达 99.9%,但是依然会由于人为因素而引入了假阳性突变。因此,得到的突变结果需要在 IGV 中进行人工手动的可视化过滤。如:低质量碱基(图 2 a),reads末端的artifacts(图 2 b),由于局部比对错误引起的插入缺失(图 2 c),strand bias artifacts(图 2 d)、低复杂度区域中的错误比对(图 2 e)等 识别de novo mutations 在人群中,de novo mutations 存在一定的频率。可以基于已经公开的数据集,如 gnomAD 进行注释和过滤。一般认为在人群中 MAF > 0.0001(也有人说是0.001),更有可能是 germline mutation。 拷贝数和结构变异 拷贝数变异 CNV 是人类遗传变异的另一种类型,与许多疾病相关,如抑郁症 autism,智力底下 intellectual disability,先天性心脏病 congenital heart disease。NGS 在临床上也有应用于 CNV 检测,相应的工具有:cn.MOPS 、CONTRA、CoNVEX、ExomeCNV、ExomeDepth 和 XHMM。如果是全基因组测序,还有检测结构变异 SV,常用的软件有 DELLY 、Lumpy 、Manta 、Pindel 和 SVMerge ,但由于二代测序的 reads 读长较短,检测 SV 仍然存在挑战性。 拷贝数变异和 SV 可以通过 IGV 进行可视化查看:
由于短读长测序在检测 SV 上的准确性只有0.8~0.9,因此,对于 SV 变异,可以基于“黄金标准”参考数据集进行验证,已有多个 SV 数据集发布:GIAB 、HS1011 和 HuRef 。 Somatic mutation 的分析最佳流程 对于体细胞突变 Somatic mutation,应用最多的便是肿瘤研究。临床上更关心的是体细胞突变、拷贝数变异和融合基因等与临床表征是否相关,通常需要肿瘤-正常样本配对进行分析。 call 突变 使用最广泛的工具是 Mutect2 ,Strelka2,VarScan2 ,采用 肿瘤和正常配对的模式,一般结合两个或多个工具可以得到较好的结果。 但是由于临床样本存在肿瘤纯度的问题,且存在亚克隆突变导致很多体细胞突变频率较低,使得难以检测出来。还有就是临床样本很多是 FFPE 样本,存在 DNA 损伤,造成各种假阳性,对检测工具来说都是具有挑战性的。 体细胞突变的过滤
minimum minor allele frequency > 0.0001
作为过滤的阈值。前文也提到过这个阈值,同样也有人建议 0.001 。体细胞拷贝数变异 对于体细胞拷贝数变异 SCAN 分析,同样也是建议使用多个工具结果,如 GATK 和 VarScan2 ,分析过程中纳入 VAF 可以为体细胞拷贝数变异提供支持证据。同样采用正常人群的 PoN 可以提高结果的准确性。 评论 文章作者仅仅是阐述了从原始的 fastq 文件到得到变异结果即 vcf 文件或拷贝数变异的 segment 文件的过程以及涉及到的工具。而实际上,我们得到突变结果之后还要对突变进行注释,基于注释结果的过滤。过滤之后还有更多分析,如肿瘤异质性、TMB评估、克隆分析、突变特征分析 Mutation Signature、肿瘤纯度评估、驱动突变的推断、MSI 评估、新抗原预测等。 这些分析和可视化用到的众多工具或R包,其安装方法和使用方法都有一定难度。本系列文章的后续推文,将就这些分析进行文献解读和工具使用方法介绍。