首页
学习
活动
专区
工具
TVP
发布

遗传病测序数据分析解读科普系列 第2期 生信分析基础:了解数据处理过程

遗传病测序数据分析解读科普系列

第2期

生信分析基础:了解数据处理过程

好的工具,让复杂遗传病易于被诊断

如果觉得内容对您有用,欢迎分享

如果有不同观点或建议,欢迎留言

背景介绍

上一部分讲了遗传数据解读的相关知识,主要描述了如何建立vcf与表型相关变异关系的分析过程。

第二部分开始介绍如何从测序的fastq数据到vcf变异文件的过程,目的是让读者了解最基本的数据处理过程。

1

系列目标

以理解为主

遗传病测序数据的生物信息学处理过程是一个复杂的过程,不仅仅只是简单的敲命令行执行命令和运行脚本,每个步骤背后隐藏了非常多的原理,文章将不多讲述关于算法的内容,重点将放在流程的步骤的目的理解上,尽量保证没有生物信息学背景的读者也能理解流程的含义。

2

内容框架

生信部分将从如下部分进行介绍:

内容框架的主体为使用最广泛的GATK Best Practices流程,增加一些适当的分支处理,如QC,数据统计和sv分析等。

数据前处理

fastq ->BQSR.bam

第一部分主要讲述从fastq到可以call变异的bam文件之间主要发生了什么。

重点理解,为什么比对目前最常用的是bwa,为什么要对bam进行sort,markdup和BQSR操作。

bwa优势:快和准

bam文件对很多人的印象可能是

第一步:打开igv

第二步:载入bam文件

第三步:输入看变异

所以不少人认为bam是一堆图片的压缩包,

而igv是专门的测序看图工具。

其实bam和igv也很绝望的。

如何得到变异vcf文件

bam -> vcf

重点理解GATK的HaplotypeCaller都做了什么,为什么在众多的call variant软件中,HC使用范围最广。

适当了解变异后处理过程中推荐使用人群数据和VQSR的目的。

qc和统计

fastq/bam/vcf的质量评估

通过质控或统计数据判断数据的质量

当拿到处理的数据后,第一时间其实并不是进行数据解读,其实首先需要检验数据的质量,即判断是否合格,否则对一个质量不达标的数据进行下游处理,很大可能会造成时间和精力的浪费。

主要理解fastq/bam/vcf的数据质量基本判断原则。

3

小结

对于非生信背景的人来说,不要被各种编程语言和算法吓到,因为生信是一门应用学科,所以的软件和算法都是基于实际问题设计的,只理解软件和流程的含义对数据解读也会大有帮助。

生信流程这个部分,作者会尽量不涉及算法原理,如果有读者有兴趣了解算法的原理或尝试运行流程,可以阅读软件的参考文献和参考gatk的命令行说明。

如果对文章内容有评价或不同看法,

欢迎到行业大咖顾大夫创建的论坛中讨论

NGS基因诊断率能力提高之路径

多维度、多学科、多角度,合共同之力解决问题。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180802G0LG9400?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券