前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >XHMM分析原理简介

XHMM分析原理简介

作者头像
生信修炼手册
发布2019-12-19 11:23:19
2K0
发布2019-12-19 11:23:19
举报
文章被收录于专栏:生信修炼手册

XHMM是一款利用WES数据分析CNV的软件,利用PCA降维来归一化外显子区的测序深度信息,然后通过隐马可夫模型来预测CNV,对应的文章链接如下

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3484655/

该软件的pipeline示意如下

可以分成4个大的步骤

1. 比对参考基因组

将测序的reads比对到参考基因组上,计算外显子区的原始测序深度。CNV预测的核心是通过测序深度和cnv的相关性来建模,所以需要保证这里的测序深度和真实DNA拷贝数的一致性,需要去除PCR重复。

官方推荐使用GATK最佳实践中的预处理流程, 同时还可以添加一个MAPQ的过滤,筛选MAPQ大于20的alignemnts,得到可以用于下游分析的bam文件。

2. 归一化测序深度

计算每个样本各个外显子的平均测序深度,得到一个exon平均测序深度的矩阵,示意如下

每一行为一个样本,每一列为一个eoxn区域,对应的值为该exon区域在样本内的平均测序深度。

在归一化之前,可以先对这个矩阵进行一个预处理,即对样本或者目标区域进行过滤。对于目标区域,去除GC含量小于0.1或者大于0.9的目标区域,去除包含10%以上的低复杂度序列的目标区域,也可以根据测序深度进行过滤,去除过低或者过高的目标区域,比如去除测序深度小于5X的目标区域;对于样本,可以根据测序深度的分布进行分析,去除离群的样本。

预处理的目的是尽量保证用于后续分析的样本在测序深度分布上的均一性,减小样本间的偏差。预处理之后就可以进行归一化,考虑到GC含量带来的PCR偏倚,芯片捕获,mapping准确率等系统误差的影响,采用PCA算法来去除系统噪声,得到归一化之后的测序深度。

效果如下图所示

左侧为原始的测序深度,右侧为归一化之后的测序深度,每条线代表一个样本的测序深度值,灰色区域表示正常的二倍体,绿色区域表示拷贝数增加,归一化之后二者区分的更加显著。

3. 构建隐马可夫模型

将CNV在全基因组范围内分布的比例,长度,exon之间的距离等因素都考虑进来,构建了隐马可夫模型, 将染色体区域分为以下3种类型

  1. diploid
  2. deletion
  3. duplication

第一种代表拷贝数正常,为2拷贝,对应的测序深度为平均值,即baseline, 第二种代表缺失,小于2拷贝,测序深度低于平均值,第三种代表重复,大于2拷贝,测序深度高于平均值。

隐马可夫模型中3种状态之间的转移概率矩阵如下所示

4. CNV calling

模型训练好之后,对于每个样本,通过维特比算法来分析染色体区域的拷贝数状态,从而检测CNV。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-09-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信修炼手册 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 比对参考基因组
  • 2. 归一化测序深度
  • 3. 构建隐马可夫模型
  • 4. CNV calling
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档