文章/答案/技术大牛

发布

肿瘤全外显子组测序数据分析：Fastq2vcf

文章来源：企鹅号 - 医知圈

大家好，我是小伍，最近有网友问我，其有一堆数据，是公司做的，可是不知如何分析，笔者好奇，也想看看，我以前没有分析过外显子的，不过大致的分析原理和流程是知道的，如果要我写代码的话，一个月应当都可以把全部流程做起来，不过笔者发现一个很好的工具包，几乎是不用写什么代码，简洁分析。

传统的分析流程是这样的：

、

1.序列QC：

去除低质量reads，和连续的低质量片段，去掉接头序列。QC统计reads数量及测序质量。

2.Mapping：

由于bwa能准确，快速的将短序列比对到基因组上，而且软件持续更新和说明文档完备，是外显子捕获测序的首选。

3.Sam到bam转换：

Samtools 的多种工具可以将sam文件转换为bam文件，rmdup工具能去除PCR扩增产生的冗余reads，消除由于文库扩增而导入的突变，降低假阳性。

Flagstat统计reads的mapping情况以及比较去除duplicate前后reads数目的反映样品建库的冗余情况。

Picard提供的多个工具，修改bam文件，是之适合于后续的GATK软件包中的工具的处理。

4.Indel区域的reads重新做局部多序列比对：

在indel的边缘，一些错配看起来很像是SNP，通过对dbSNP库及bam文件检测到的indel附近的reads进行局部的重新比对，可以消除indel周边的假阳性SNP。

5.碱基质量重新打分：

测序仪给reads中的碱基的qual值存在一定的偏差，通过经验的错误模型来重新计算的碱基的qual值，重新给reads的各个碱基的qual打分。

6.Call snv和indel：

对处理好的多样品bam文件同时运行UnifiedGenotyper，大大提高call SNP的灵敏度和准确性，多样品同时比较的结果，方便了后续的样品间差异的筛选。

7.突变位点的重新打分：

通过hapmap，omni，dbsnp数据库中已知的突变位点建模优化，对各个突变位点重新打分，筛选。大大降低了假阳性率。

8.注释：

通过ANNOVAR软件对vcf结果注释，关联到多个数据库。

二、数据分析内容

1. Mapping统计：

统计总reads数，mapped reads及unique mapped reads数目及百分比。

2. 捕获效率统计：

统计来自捕获区域的Fragment比例：

统计target区域所有的碱基覆盖次数分布：

对每个target区域的覆盖和深度统计：

如果对某些基因特别感兴趣，想要看看来自这些基因的外显子区域的覆盖情况，可以提供每个target或者特定target区域的覆盖情况和测序深度统计。

3. Snv和indel关联数据库：

Snv和indel结果按照突变的位点是否在捕获的区域之内分成两部分：

*_target.snv：突变处于捕获的靶区域(target region)内。

*_off_target.snv或者*_target.indel: 突变在捕获的靶区域之外。

Snv和indel结果与以下的数据库关联，为突变的筛选提供大量的信息。

1）基因注释：

通过基因注释可以达到以下的目的：突变的功能定位(在外显子，内含子，剪接位点还是基因间区)；突变所在的基因名称或者临近的基因；突变如果在编码区域，是否引起氨基酸的改变(同义突变，非同义突变的呢过)。

如果引起氨基酸的改变，按照HGVS命名规则表示--改变的基因ID，转录本ID，外显子编号，以及氨基酸改变，如 NOD2:NM_022162:exon8:c.G2722C:p.G908R。

默认使用refSeq完成基因注释，如果有特殊的要求，可以使用UCSC known gene，Ensembl，GENCODE，CCDS等基因注释系统。

2） 1000G注释：

检测突变位点是否在1000 Genomes Projects（2012 release）数据库中检测到，如果检测到，显示等位基因频率（allele frequency）。默认是使用所有人种的数据库，如果有特定要求，可以按照要求展示不同人种（比如AMR, AFR, ASN，EUR，中国人，日本人）等位基因频率。

3） dbSNP注释：

检测突变是否在dbSNP数据库中，如果在，显示rsID。

默认使用db SNP135数据库,如果有特定的要求，可以使用dbSNP129，dbSNP130，dbSNP131，dbSNP132数据库。

4） AVSIFT：

SIFT是一款很受欢迎的检测非同义突变位点重要性的软件，对应非同义突变位点，会给定一个打分，若打分低于0.05，则表明突变很可能会影响到蛋白质的功能

5）与UCSC的数据库的关联：

ftp://hgdownload.cse.ucsc.edu/goldenPath/hg19/database/.txt.gz,提供了大量的基因组注释信息，目前关联的数据库有：

tfbsConsSites：在人/小鼠/大鼠中保守的转录因子结合位点，以transfac Matrix Database (v7.0)为基础。

wgRna：snoRNA and miRNA注释。

targetScanS：TargetScan预测的miRNA把区域。

gwasCatalog：已经发表的各种疾病的GWAS结果。

genomicSuperDups：基因组中的重复片段。

phastConsElements46way：通过phastCons对脊椎动物的全基因组比对生成的保守区域，根据用于比对的物种数目，分为17way, 28way, 30way, 44way等。

6） cosmic63：

已观察到的癌症相关突变，显示在COSMIC中的ID（identifiers），观察到的次数，以及观察到的癌组织。

4. CNV：

XHMM是一款外显子捕获拷贝数变异检测的优秀软件包，使用GATK和XHMM能够得到较好的外显子捕获的CNV结果。

5. 其它：

Polyphen-2 (Polymorphism Phenotyping v2)也是一款基于多序列比对和蛋白质3D结构，预测氨基酸替换(从一种氨基酸改变为另一种氨基酸)对蛋白质结构和功能影响的软件。

可以通过GT（genotype）直接比较样品间的差异(GT简介：0表示与Ref相同，1表示与ALTS第1个碱基相同，2表示如ALTS第2个碱基相同)。

通过和多个数据库的提供关联精细筛选条件：

现在我们来看Fastq2vcf。可以流水化作业哦，省去以上多步骤的麻烦。

Fastq2vcf需要两个文件：一个描述排序数据的数据表和一个配置文件，用于生成一系列可以直接在Linux / Unix环境下运行的shell脚本。测序数据表包含有关样品标识符，平台，库，读取组，序列类型（配对结束或单端），目录和文件名的信息。用户可以使用电子表格程序或文本编辑器构建该表格，并将其保存为制表符分隔的平面文件。配置文件存储数据分析工具和程序参数的路径。配置fastq2vcf后，运行它将生成三类shell脚本文件，这些文件可以自动执行分析管道中的所有步骤。一个典型的流水线如图1所示，显示了fastq2vcf的输出，三种shell脚本文件，以及这些shell脚本的功能。首先，QC_mapping.sh包含用于调用质量控制和对齐程序的命令行，并格式化数据以供进一步处理。第二个，PreCalling.sh，包含删除重复数据和重新排列以减少误报的命令行。第三个脚本文件Variant.sh包含用于变体调用，过滤和注释的命令行。

发表于: 2017-12-172017-12-17 23:15:57
原文链接：http://kuaibao.qq.com/s/20171217G0NIBT00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

肿瘤全外显子组测序数据分析：Fastq2vcf

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐