首页
学习
活动
专区
工具
TVP
发布

排查疑似污染样本的方法

“变异信息的统计对质控来说是很重要的一步,可以通过此步排除疑似污染样本。”

我们对测序结果进行分析的时候,在实验和下机数据质控层面可能没有发现异常,但进行后续分析时,可能就会出现问题,比如与参考基因组比对后发现某样本各项指标异常,或变异检测注释后统计位点信息时发现某样本异常。今天要和大家分享的就是后面一种情况。

01

分析方法

以WES全外显子组测序人的样本为例,如何根据变异注释结果分析出样本是疑似污染样本呢?方法如下:

snp数量

indel数量

het ratio

patho/likey patho的数量

rediscovery rate

index拆分

实验

12例样本采用WES测序技术,捕获panel为Aglient 64M。按照上述的分析标准,结果分别如下:

表 1. 疑似污染样本与11例样本的变异注释统计结果

注:J表示疑似污染样本sample J,11 sample mean表示其他11例样本每项指标的均值。NFE:Non-Finnish European

通过上面的结果可以看出,样本J在突变数量、杂合率及疑似致病位点数量上,远高于其他11例样本的均值。其中,patho/likely patho是根据ACMG分级的结果。而在正常人群突变频率比较时发现,样本J在东亚人数据库的比例远低于其他11例样本,而位点在非洲人群的比例高于其他11例样本。

排除Index拆分错误及实验方面的原因,因此判定样本J为疑似污染样本。其中所有12例样本为单Index,按照不容错拆分。

重点讲下rediscovery rate是怎么计算的:

rediscovery rate位点重现率是基于1000g、exac、gnomAD、berry400k这4个数据库进行分析的。由于ANNOVAR注释的时候只用了1000g_all和1000g_eas,所以统计结果里只有这2个数据库。而exac和gnomAD是有多个人种数据库的。

千人基因组1000g是全基因组测序,平均测序深度7.4X,样本数量2504。其实每例样本也做了WES,平均测序深度65X。但为了便于计算,位点在数据库重现率计算上,1000g和berry400k直接统计位点在数据库频率大于0的位点。而exac数据库是基于WES测序的,gnomAD整合了exac、1000g和ESP,所以需要先统计有多少位点在exac的exome variants calling interval list里出现过,再统计有多少位点在exac里有记录,即频率大于0。

先将annovar注释结果转为vcf,此步自己写程序处理即可。转成vcf的目的是下一步,应用intersectBed进行与exac捕获Panel overlap位点的查找,因为intersectbed的输入文件只能是vcf或bed。

命令行:

为什么不用exac exome panel与我们Aglient 64M取交集,统计落在交集里的位点呢?因为目的是先看有多少位点在exac panel范围里,再看有多少位点是在exac数据库有频率记录的位点。如果看exac没有覆盖到的位点,可以用两者取交集的方法去做。

补充知识:

在计算rediscovery rate时,分子是在数据库有频率记录的位点,分母是该样本有多少个位点。

突变频率 frequency = allele count / allele number

如果在数据库中频率为0,是说明该位点的allele count为0,但这个位点是存在的。

bed文件格式:

column 1: chromosome

column 2: start position (0-base)

column 3: end position (1-base)

02

解决办法

如果确定这个样本是疑似污染的样本,那么下一步该如何分析呢?

方法一:

剔除疑似污染样本,继续后续分析。

方法二:

重新送样,新样本,相同表征的不同患者。

通过排查疑似污染样本,学习了变异质量控制方法。希望大家有所收获。

大家有什么疑问,欢迎随时交流,后台留言就可以哟

我是yyt,分享基因知识、研究心得、职场感悟、碎碎念等

由于2018年3月注册的公号没有留言功能,欢迎后台留言,我会及时回复哟

加油~↖(^ω^)↗~

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180422G13CJ600?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券