专栏首页生信修炼手册基因型填充前的质控条件简介

基因型填充前的质控条件简介

影响基因型填充准确率的因素有很多,比如分型结果的质量,填充软件的选择,reference panel的选择,样本量的大小, SNP的密度等等。

为了提高填充的准确率,我们需要在填充前进行质量过滤。对于原始的分型结果,可以根据一些条件进行筛选和过滤,得到高质量的分型结果,用于后续的填充。

分型结果本质上是一张由样本和SNP位点构成的表格,对应的过滤手段也分成了两个大的方向,针对SNP位点的过滤和针对样本的过滤。

这里的质控条件和GWAS分析的质控条件是一致的,本文基于case/control的GWAS分析,讲解下常用的过滤条件。对于SNP位点的过滤,常用的过滤条件如下

1. missingness

在原始的分型结果中,会有部分分型失败的位点,称之为missing data。分型成功的比例称之为call rate, 根据snp call rate进行过滤的代码如下

plink \
--noweb \
--file test \
--geno 0.1 \
--out filter

--geno指定snp位点分型失败比例的阈值,分型失败的比例大于该阈值的位点会被过滤掉。

2. Hardy-Weinberg equilibrium

GWAS假设样本群体是符合哈温平衡的, 对于不符合哈温平衡的SNP位点,需要过滤掉。

需要注意的是,哈温平衡的计算是针对群体的,在case/control中,如果合并一起计算hwe, 该位点的不平衡很可能是由于两个群体间的差异构成,过滤之后会造成后续分析的假阴性,所以只需要针对control组的样本计算hwe, 然后进行过滤就可以了,代码如下

plink \
--noweb \
--file test \
--hwe 0.000001 \
--out filter

--hwe指定哈温平衡检验pvalue的阈值,小于该阈值的位点会被过滤掉。

3. minor allele frequency

MAF过低可能是由于分型算法不能够检测到对应的allel引起的, 比如测序深度或者荧光信号强度不够等因素,此时这些位点的分型结果是不太准确的,所以需要过滤。

其次为了能够有效进行后续的GWAS挖掘,要保证不同allel对应的样本量的大小。MAF<1%的突变称之为rare variants, 相比MAF > 5%的common variants, 罕见变异需要更大的样本量,当样本量不足时,会造成后续分析的假阳性,所以在样本量较小的情况下,不能够有效进行罕见变异的GWAS分析,需要去除。

过滤的代码如下

plink \
--noweb \
--file test \
----maf 0.01 \
--out filter

--maf指定MAF过滤的阈值,小于该阈值的位点会被过滤掉。

对于样本的过滤,常用的过滤条件如下

1. missingness

和SNP的call rate类似,只是换成了样本中的比例,过滤的代码如下

plink \
--noweb \
--file test \
----mind 0.01 \
--out filter

--mind指定样本分型失败比例的阈值,分型失败的比例大于该阈值的样本会被过滤掉。

2. gender check

通过样本的分型结果可以判断样本的性别,plink默认F值小于0.2的为女性,大于0.8的为男性,然后与该样本标记的性别进行比较,如果二者不一致,则需要去掉该样本,代码如下

plink \
--noweb \
--file test \
--check-sex 0.2 0.8 \
--allow-no-sex \
--out gender

运行成功后输出一个后缀为genome的文件,在该文件中,如果性别一致显示OK, 否则显示PROBLEM。在某些情况下,默认阈值可能过于严格,可以调整check-sex后面的参数。

识别到不一致的样本之后,可以将对应的样本ID整理到一个文件中,每行一个ID,然后通过下列代码进行过滤

plink \
--noweb \
--file test \
--remove sample.list \
--out filter

3. IBD

IBD用于衡量样本间的亲缘关系,亲缘关系较近的样本分型结果非常相似,极端的例子就是重复样本。GWAS分析的本质是一个无放回的抽样,需要保证样本间的独立性,所以亲缘关系较近的样本需要被去除。计算样本间IBD距离的代码如下

plink \
--noweb \
--file test \
--genome \
--allow-no-sex \
--out ibd

4. heterozygosity and inbreeding

在一个随机交配产生的符合哈温平衡的群体中, 样本是具有一定的杂合基因型的,近亲繁殖会导致纯合基因型的出现,产生的后代样本杂合度降低,导致群体哈温平衡的偏离,这样的样本需要被去除,保证GWAS分析中群体符合哈温平衡的假设。

另外,杂合度过高的样本可能是实验阶段混合了两个样本的DNA导致的,所以也需要去除。实际操作中,通过近亲系数F来表征, F值的大小与样本杂合度呈负相关,F值越大,对应杂合度越低。通过下列代码可以计算样本的近亲繁殖系数

plink \
--noweb \
--file test \
--het \
--allow-no-sex \
--out het

然后通过F值的分布来确定过滤的条件。

5. population stratification

群体分层指的是在样本中明显分成了多个亚群,亚群之间的差异会影响case/control组间差异的判断,对GWAS分析造成影响。对于群体分层,可以在后续GWAS分析中进行校正,这里的过滤指的是过滤掉个别明显偏离的离群值样本,可以通过主成分分析PCA或者MDS分析来实现,对应的方法比较多,后续在详细讲解。

除了这些过滤条件外,还需要调整SNP的方向,在reference panel中,SNP位点分型结果以参考基因组正链上的碱基表示,而在分型结果中会出现既有正链又有负链的情况,需要统一校正到正链上来。

对原始分型结果进行质控,可以提高基因型填充的准确率,进一步保证后续GWAS分析的准确性。

本文分享自微信公众号 - 生信修炼手册(gh_0146e37a8a70),作者:lzyg

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-09-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 使用EXCAVATOR2检测WES的CNV

    excavator2是一款利用WES数据进行CNV分析的软件,其他同类软件通常只关注捕获的exon区域,而该软件则进行了延伸,将捕获区域划分为exon和非exo...

    生信修炼手册
  • 使用SOAPfuse进行融合基因的分析

    SOAPfuse是华大开发的一款,专门针对human的融合基因进行分析的工具,项目链接如下

    生信修炼手册
  • 使用EPIC预测肿瘤微环境中免疫细胞构成

    在传统的RNA_seq测序中,每个样本取样后实际包含了成千上万个细胞,和单细胞测序的single cell相比,这样的样本称之为bulk samples。在bu...

    生信修炼手册
  • 多个单细胞转录组样本的数据整合之CCA-Seurat包

    大多数百万经费起的项目,当然,现在想发普通的单细胞文章,也是得做多个样本了,就面临如何整合的问题,其中最出名的当然是Seurat包的CCA方法了,具体多火呢,发...

    生信技能树
  • 【CVPR 2018】牛津大学等联合提出通过让神经网络学会比较实现少样本学习

    【论文导读】 深度学习的爆炸式发展得益于海量数据+强大计算力+算法三个部分的巨大进展,我们通常需要大量的数据去驱动模型的训练,使其获得很好的效果。但是在很多领...

    张俊怡
  • 记录一次接口评测的优化

    我们在测试过程中往往使用不同的方式评估产品的质量,这些方法种类繁多,从简单的缺陷计数到严格的统计建模不一而足。当我们的功能涉及到过量或者无法穷尽的数据时,我们需...

    用户5521279
  • Go语言锁的解读

    var l sync.Mutexvar a stringfunc f() { a = "hello, world" l.Unlock() }func mai...

    李海彬
  • 听说机器已经开始给人类歌手打分了,它能听懂人的歌声吗?

    音乐类竞技节目层出不穷,台上你方唱罢我登场,台下专业评审和现场观众热情高涨:这句唱得好,加分!那句跑调了,减分!歌手唱哭了,满分!此时,如果有一个毫无感情色彩的...

    企鹅号小编
  • 程序员面试金典 - 面试题 04.03. 特定深度节点链表(BFS)

    给定一棵二叉树,设计一个算法,创建含有某一深度上所有节点的链表(比如,若一棵树的深度为 D,则会创建出 D 个链表)。返回一个包含所有深度的链表的数组。

    Michael阿明
  • 一文搞懂简单线性回归

    线性回归是研究因变量y和自变量x之间数量上相互依存的线性关系。在机器学习中自变量x为样本特征,因变量y为目标值。比如在预测房价的机器学习任务中,每个样本x表示与...

    触摸壹缕阳光

扫码关注云+社区

领取腾讯云代金券