遗传病测序数据分析解读科普系列
第2期
生信分析基础:了解数据处理过程
好的工具,让复杂遗传病易于被诊断
如果觉得内容对您有用,欢迎分享
如果有不同观点或建议,欢迎留言
背景介绍
上一部分讲了遗传数据解读的相关知识,主要描述了如何建立vcf与表型相关变异关系的分析过程。
第二部分开始介绍如何从测序的fastq数据到vcf变异文件的过程,目的是让读者了解最基本的数据处理过程。
1
系列目标
以理解为主
遗传病测序数据的生物信息学处理过程是一个复杂的过程,不仅仅只是简单的敲命令行执行命令和运行脚本,每个步骤背后隐藏了非常多的原理,文章将不多讲述关于算法的内容,重点将放在流程的步骤的目的理解上,尽量保证没有生物信息学背景的读者也能理解流程的含义。
2
内容框架
生信部分将从如下部分进行介绍:
内容框架的主体为使用最广泛的GATK Best Practices流程,增加一些适当的分支处理,如QC,数据统计和sv分析等。
数据前处理
fastq ->BQSR.bam
第一部分主要讲述从fastq到可以call变异的bam文件之间主要发生了什么。
重点理解,为什么比对目前最常用的是bwa,为什么要对bam进行sort,markdup和BQSR操作。
bwa优势:快和准
bam文件对很多人的印象可能是
第一步:打开igv
第二步:载入bam文件
第三步:输入看变异
所以不少人认为bam是一堆图片的压缩包,
而igv是专门的测序看图工具。
其实bam和igv也很绝望的。
如何得到变异vcf文件
bam -> vcf
重点理解GATK的HaplotypeCaller都做了什么,为什么在众多的call variant软件中,HC使用范围最广。
适当了解变异后处理过程中推荐使用人群数据和VQSR的目的。
qc和统计
fastq/bam/vcf的质量评估
通过质控或统计数据判断数据的质量
当拿到处理的数据后,第一时间其实并不是进行数据解读,其实首先需要检验数据的质量,即判断是否合格,否则对一个质量不达标的数据进行下游处理,很大可能会造成时间和精力的浪费。
主要理解fastq/bam/vcf的数据质量基本判断原则。
3
小结
对于非生信背景的人来说,不要被各种编程语言和算法吓到,因为生信是一门应用学科,所以的软件和算法都是基于实际问题设计的,只理解软件和流程的含义对数据解读也会大有帮助。
生信流程这个部分,作者会尽量不涉及算法原理,如果有读者有兴趣了解算法的原理或尝试运行流程,可以阅读软件的参考文献和参考gatk的命令行说明。
如果对文章内容有评价或不同看法,
欢迎到行业大咖顾大夫创建的论坛中讨论
NGS基因诊断率能力提高之路径
多维度、多学科、多角度,合共同之力解决问题。
领取专属 10元无门槛券
私享最新 技术干货