前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >使用XP-CLR检测基因组中的选择信号

使用XP-CLR检测基因组中的选择信号

作者头像
实验盒
发布2021-09-22 12:13:40
2.3K0
发布2021-09-22 12:13:40
举报
文章被收录于专栏:实验盒实验盒

检测基因组选择信号的方法有很多种,其中 XP-CLR 方法是常用的一种。XP-CLR 是陈华老师、Nick Patterson 和 David Reich 在 2010 年发表的方法,全称叫 the cross-population composite likelihood ratio test(跨群体复合似然比检验),是一种是基于选择扫荡(selective sweeep)的似然方法。

选择扫荡可以增加群体之间的遗传分化,导致等位基因频率偏离中性条件下的预期值。XP-CLR 利用了两个群体之间的多基因座等位基因频率差异(multilocus allele frequency differentiation)建立模型,使用布朗运动来模拟中性下的遗传漂移,并使用确定性模型来近似地对附近的单核苷酸多态性(SNPs)进行选择性扫描。

XP-CLR 不仅可以用在人类上,它在动植物驯化研究中也用得较多,比如玉米、大豆、家犬、牛等。

安装

XP-CLR的下载地址可以在 https://reich.hms.harvard.edu/software 找到。

代码语言:javascript
复制
wget https://reich.hms.harvard.edu/sites/reich.hms.harvard.edu/files/inline-files/XPCLR.tar

tar xvf XPCLR.tar

解压后有 binsrc 两个文件夹以及一个 README 文档。'bin' 中的 XPCLR 是程序可执行文件,剩下的三个是示例数据。

如果 XPCLR 无法在你的系统中运行,则需要自己用 src 的源码编译:

代码语言:javascript
复制
cd src
make
make install"

输入数据

XP-CLR 的计算需要2个 geno 文件和 1 个.snp (map) 文件。

.geno file:

一个群体的基因型数据放在一个 geno 文件中。每一行包含一个 SNP 的 genotype(0或1),每两列代表一个人。数据可以是 phased 的,也可以未 phased。如果是 phased 后的,每一列是一个 haplotype。如果是未 phased 的,同一个人的两个 alleles 可以随意在两列中排放。示例数据 CEU.9YRI.9用的是空格间隔符。

比如下面这个,代表了 3 个人的 2 个 SNPs:

代码语言:javascript
复制
1 0 1 1 9 9
1 1 1 0 0 0

.snp file

每一行是一个 SNP的信息,每一列分别是 SNPName chr# GeneticDistance(Morgan) PhysicalDistance(bp) RefAllele TheOtherAllele。示例数据 9.xpclr.b36.snp 用的是 tab 间隔符。

比如:

代码语言:javascript
复制
rs10814410	9	0.000109	36587	C	T
rs9408752	9	0.000938	91857	A	G
rs2810979	9	0.001323	152695	G	A

运行

分析命令:

代码语言:javascript
复制
XPCLR -xpclr genofile1 genofile2 mapfile outputFile -w1 snpWin gridSize chrN -p corrLevel

参数解释:-xpclr :后面接是两个群体的 .geno 文件(genofile1 和 genofile2)、 .snp 文件(mapfile)、输出文件(outputFile)-w1:后面接的参数依次为:snpWin 是 Morgan 为单位的window size (一般可以设为 0.005);gridSize 代表一个 window 中最大的 SNP 数量;gridSize 是 bp 为单位的两个 grid points 的间距;chrN 是染色体数。-p-p0 代表 phased 的数据,-p1 代表未 phased。corrLevel:加权复合似然比检验中的 criterion,一般可设为0.95。

运行示例数据,示例两个群体的 9号染色体的 phased 数据:

代码语言:javascript
复制
./XPCLR -xpclr CEU.9 YRI.9 9.xpclr.b36.snp xpclr.9 -w1 0.005 200 2000 1 -p0 0.95

得到的结果文件中,每一列分别代表 chr# grid# #ofSNPs_in_window physical_pos genetic_pos XPCLR_score max_s,XPCLR_score 是算出的 XP-CLR 分数。

Python版

原版 XP-CLR 已经多年没更新。Big Data Institute, University of Oxford 的 Nick Hardin 使用 Python 重写了 XP-CLR的计算工具,并且改正了当中存在的小 bug。仓库地址为 https://github.com/hardingnj/xpclr。可以克隆 GitHub 参考后使用 python setup.py install 安装,也可以直接在 bioconda 用conda install xpclr -c bioconda 安装。

参考

Chen, H., Patterson, N. and Reich, D., 2010. Population differentiation as a test for selective sweeps. Genome research, 20(3), pp.393-402.

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-06-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 实验盒 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 安装
  • 输入数据
    • .geno file:
      • .snp file
      • 运行
      • Python版
      • 参考
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档