肿瘤全外显子组测序数据分析:Fastq2vcf

大家好,我是小伍,最近有网友问我,其有一堆数据,是公司做的,可是不知如何分析,笔者好奇,也想看看,我以前没有分析过外显子的,不过大致的分析原理和流程是知道的,如果要我写代码的话,一个月应当都可以把全部流程做起来,不过笔者发现一个很好的工具包,几乎是不用写什么代码,简洁分析。

传统的分析流程是这样的:

1.序列QC:

去除低质量reads,和连续的低质量片段,去掉接头序列。QC统计reads数量及测序质量。

2.Mapping:

由于bwa能准确,快速的将短序列比对到基因组上,而且软件持续更新和说明文档完备,是外显子捕获测序的首选。

3.Sam到bam转换:

Samtools 的多种工具可以将sam文件转换为bam文件,rmdup工具能去除PCR扩增产生的冗余reads,消除由于文库扩增而导入的突变,降低假阳性。

Flagstat统计reads的mapping情况以及比较去除duplicate前后reads数目的反映样品建库的冗余情况。

Picard提供的多个工具,修改bam文件,是之适合于后续的GATK软件包中的工具的处理。

4.Indel区域的reads重新做局部多序列比对:

在indel的边缘,一些错配看起来很像是SNP,通过对dbSNP库及bam文件检测到的indel附近的reads进行局部的重新比对,可以消除indel周边的假阳性SNP。

5.碱基质量重新打分:

测序仪给reads中的碱基的qual值存在一定的偏差,通过经验的错误模型来重新计算的碱基的qual值,重新给reads的各个碱基的qual打分。

6.Call snv和indel:

对处理好的多样品bam文件同时运行UnifiedGenotyper,大大提高call SNP的灵敏度和准确性,多样品同时比较的结果,方便了后续的样品间差异的筛选。

7.突变位点的重新打分:

通过hapmap,omni,dbsnp数据库中已知的突变位点建模优化,对各个突变位点重新打分,筛选。大大降低了假阳性率。

8.注释:

通过ANNOVAR软件对vcf结果注释,关联到多个数据库。

二、数据分析内容

1. Mapping统计:

统计总reads数,mapped reads及unique mapped reads数目及百分比。

2. 捕获效率统计:

统计来自捕获区域的Fragment比例:

统计target区域所有的碱基覆盖次数分布:

对每个target区域的覆盖和深度统计:

如果对某些基因特别感兴趣,想要看看来自这些基因的外显子区域的覆盖情况,可以提供每个target或者特定target区域的覆盖情况和测序深度统计。

3. Snv和indel关联数据库:

Snv和indel结果按照突变的位点是否在捕获的区域之内分成两部分:

*_target.snv:突变处于捕获的靶区域(target region)内。

*_off_target.snv或者*_target.indel: 突变在捕获的靶区域之外。

Snv和indel结果与以下的数据库关联,为突变的筛选提供大量的信息。

1)基因注释:

通过基因注释可以达到以下的目的:突变的功能定位(在外显子,内含子,剪接位点还是基因间区);突变所在的基因名称或者临近的基因;突变如果在编码区域,是否引起氨基酸的改变(同义突变,非同义突变的呢过)。

如 果引起氨基酸的改变,按照HGVS命名规则表示--改变的基因ID,转录本ID,外显子编号,以及氨基酸改变,如 NOD2:NM_022162:exon8:c.G2722C:p.G908R。

默认使用refSeq完成基因注释,如果有特殊的要求,可以使用UCSC known gene,Ensembl,GENCODE,CCDS等基因注释系统。

2) 1000G注释:

检测突变位点是否在1000 Genomes Projects(2012 release)数据库中检测到,如果检测到,显示等位基因频率(allele frequency)。默认是使用所有人种的数据库,如果有特定要求,可以按照要求展示不同人种(比如AMR, AFR, ASN,EUR,中国人,日本人)等位基因频率。

3) dbSNP注释:

检测突变是否在dbSNP数据库中,如果在,显示rsID。

默认使用db SNP135数据库,如果有特定的要求,可以使用dbSNP129,dbSNP130,dbSNP131,dbSNP132数据库。

4) AVSIFT:

SIFT是一款很受欢迎的检测非同义突变位点重要性的软件,对应非同义突变位点,会给定一个打分,若打分低于0.05,则表明突变很可能会影响到蛋白质的功能

5) 与UCSC的数据库的关联:

ftp://hgdownload.cse.ucsc.edu/goldenPath/hg19/database/.txt.gz,提供了大量的基因组注释信息,目前关联的数据库有:

tfbsConsSites:在人/小鼠/大鼠中保守的转录因子结合位点,以transfac Matrix Database (v7.0)为基础。

wgRna:snoRNA and miRNA注释。

targetScanS:TargetScan预测的miRNA把区域。

gwasCatalog:已经发表的各种疾病的GWAS结果。

genomicSuperDups:基因组中的重复片段。

phastConsElements46way:通过phastCons对脊椎动物的全基因组比对生成的保守区域,根据用于比对的物种数目,分为17way, 28way, 30way, 44way等。

6) cosmic63:

已观察到的癌症相关突变,显示在COSMIC中的ID(identifiers),观察到的次数,以及观察到的癌组织。

4. CNV:

XHMM是一款外显子捕获拷贝数变异检测的优秀软件包,使用GATK和XHMM能够得到较好的外显子捕获的CNV结果。

5. 其它:

Polyphen-2 (Polymorphism Phenotyping v2)也是一款基于多序列比对和蛋白质3D结构,预测氨基酸替换(从一种氨基酸改变为另一种氨基酸)对蛋白质结构和功能影响的软件。

可以通过GT(genotype)直接比较样品间的差异(GT简介:0表示与Ref相同,1表示与ALTS第1个碱基相同,2表示如ALTS第2个碱基相同)。

通过和多个数据库的提供关联精细筛选条件:

现在我们来看Fastq2vcf。可以流水化作业哦,省去以上多步骤的麻烦。

Fastq2vcf需要两个文件:一个描述排序数据的数据表和一个配置文件,用于生成一系列可以直接在Linux / Unix环境下运行的shell脚本。测序数据表包含有关样品标识符,平台,库,读取组,序列类型(配对结束或单端),目录和文件名的信息。用户可以使用电子表格程序或文本编辑器构建该表格,并将其保存为制表符分隔的平面文件。配置文件存储数据分析工具和程序参数的路径。配置fastq2vcf后,运行它将生成三类shell脚本文件,这些文件可以自动执行分析管道中的所有步骤。一个典型的流水线如图1所示,显示了fastq2vcf的输出,三种shell脚本文件,以及这些shell脚本的功能。首先,QC_mapping.sh包含用于调用质量控制和对齐程序的命令行,并格式化数据以供进一步处理。第二个,PreCalling.sh,包含删除重复数据和重新排列以减少误报的命令行。第三个脚本文件Variant.sh包含用于变体调用,过滤和注释的命令行。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171217G0NIBT00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券