专栏首页实验盒使用ADMIXTURE估计个体的祖先成分

使用ADMIXTURE估计个体的祖先成分

ADMIXTURE 是常用的群体遗传学分析工具,可以估计个体的祖先成分。与 STRUCTURE 相比,它的速度更快。

下面介绍一下它的使用。STRUCTURE 可以输入 Plink 或者 EIGENSTRAT 格式的数据,这里以 plink 格式的文件为例。

筛选SNP

SNP 数量太多,计算会非常慢。可以使用 plink 的 --indep-pairwise 命令,通过 LD 筛选位点:

plink --bfile data --indep-pairwise 50 10 0.1

plink --bfile data --extract plink.prune.in --make-bed --out data.pruned

寻找最佳k值

如果不知道k值设多少,可以在一系列不同的k值中进行交叉验证,选择最佳的k。

使用 --cv=n 参数,Admixture 会把基因型划分成均等大小的 n 份做交叉验证。不指定 n 时,默认为5。

为了加快计算的速度,还可以通过 -jn 的命令多线程计算,其中 n 为 线程数。

比如,使用默认的 5-fold cross-validation,以 40 个线程并行,从 1 至 15 中寻找最佳的k值:

for K in $(seq 1 15); do admixture --cv data.pruned.bed $K -j40 | tee log${K}.out; done

完成计算后,获取交叉验证的结果:

grep -h CV log*.out

最低的 CV errors(cross-validation error)对应的 k 值,是其中最理想的选择。比如这里最低的是 K=9 时的 0.57622,因而选择 9 作为分析的 k 值。

利用最佳k值分析

知道最佳 k 值后,就可以直接计算群体成分。以 k=9,使用 20 个线程为例:

admixture data.pruned.bed 9 -j20

计算完成后,得到的 .Q 结尾的文件便是各个个体的群体成分。

如果只是简单看看,直接用 R 画个 barplot 就可以:

tbl=read.table("hapmap3.3.Q")
barplot(t(as.matrix(tbl)), col=rainbow(3),xlab="Individual #", ylab="Ancestry", border=NA)

如果要画更详细的图,可以用 R 包 pophelper。

本文分享自微信公众号 - 实验盒(gh_8a85afc0b064),作者:实验盒

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-07-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 使用admixture软件做祖先成分分析小实例

    http://software.genetics.ucla.edu/admixture/download.html 不需要安装,解压出来即可使用

    用户7010445
  • GWAS和群体遗传学笔记

    最近听了菲沙基因的网课,记录一下!多数是其课程ppt的截图,如有侵权,立马删除。声明,和这个公司无利益相关,只是为了学习和分享知识。

    用户1075469
  • 今日Science:狗是怎么变成狗的?来看看化石DNA的故事!

    狗第一个被驯化的动物,可能起源于与人类发生了密切接触的灰狼。不过,狗的起源仍有很多争议。虽然已经有不少这方面的研究,但绝大部分研究是基于现代的狗和灰狼进行溯祖,...

    实验盒
  • structure 2.3.4 软件使用指南

    Windows版建议安装桌面版(graphical front end), Linux建议安装终端版(without front end)

    邓飞
  • 可以做structure的R语言包:LEA

    LEA: An R package for landscape and ecological association studies

    邓飞
  • GWAS全基因组关联分析流程(BWA+samtools+gatk+Plink+Admixture+Tassel)

    我梳理了GWAS全基因组关联分析的整个流程,并提供了基本的命令,用到的软件包括BWA、samtools、gatk、Plink、Admixture、Tassel等...

    追梦生信人
  • PCA方法校正群体结构,GWAS该用多少个主成分?

    群体结构(population structure),或者说群体分层(population stratification),是由于个体之间非随机交配而导致的群体...

    实验盒
  • 基于Seurat结果推断单细胞群肿瘤纯度之ESTIMATE

    单细胞转录组是揭示细胞异质性的的有力武器,鉴于肿瘤的异质性,这一点在肿瘤样本中表现尤为突出。所以肿瘤样本的单细胞转录组就不只是无监督地分个群那么简单,基于我们对...

    生信技能树jimmy
  • 【生信文献200篇】51 探索PDAC癌前病变

    「英文标题:」 Precancerous neoplastic cells can move through the pancreatic ductal sys...

    生信菜鸟团
  • 一文读懂进化树(图文详解)

    一、什么是进化树二、进化树的构成1. 根 (Root)2. 结点 (Node)3. 进化支 (Branch)4. 外群5. 进化分支长度6. 距离标尺7. Bo...

    生信菜鸟团
  • Nature | ​心脏发生的单细胞分析揭示了器官水平发育缺陷的基础

    对单细胞技术感兴趣?点击浅蓝色字 — 中科院的算法开发博士带你真正玩转这项平均每个月都有多篇高IF文章的技术

    生信宝典
  • 群体遗传系列之:一文了解和使用Treemix来研究群体之间的基因流

    中秋假期过去了,学习不能停下来。这一期推文继续和大家分享与群体遗传进化相关的知识。这一期主要讲解基因流和Treemix的使用,读完后希望对大家有帮助且有所收获。...

    生信菜鸟团
  • Python学习笔记 2: Python的变量类型

    根据COO的学习反馈,对变量赋值有些疑惑。先把这个问题解决掉,以下面这句代码为例,

    光学小豆芽
  • 最大似然估计 – Maximum Likelihood Estimate | MLE

    最大似然估计是一种统计方法,它用来求一个样本集的相关概率密度函数的参数。这个方法最早是遗传学家以及统计学家罗纳德·费雪爵士在1912年至1922年间开始使用的。

    easyAI
  • 运动是如何改造我们的大脑?

    提出这个问题的前提是,你已接受或者至少是认识到运动是可以改造大脑的。想要回答清楚这个问题,我们可以先看一下,运动与我们大脑的关系。

    脑机接口社区
  • 单细胞转录多样性是发育潜能的一个标志

    单细胞RNA测序(scRNA-seq)是重建细胞分化轨迹的有力方法。然而,同时推断分化的状态与方向是一项具有挑战性的工作。今天分享的文章于2020年1月发表在期...

    生信技能树jimmy
  • 用AI的方式给祖国庆生!《我的祖国》MV变4K高清彩色版

    随后,就是电影《上甘岭》的女主角玉兰上场,虽然看上去未施粉黛,但一点不逊色于今天的女明星~

    量子位
  • 海妖姐姐家的月饼居然卖三舍一

    在其他选手还在高歌猛进的时候,星巴克却戛然而止,离中秋节还有遥遥一周就把月饼下架了!

    用户1569917
  • 单细胞谱系分析重建人类肺末梢祖细胞分化过程

    当你的才华还撑不起你的野心时,请潜下心来,脚踏实地,跟着我们慢慢进步。不知不觉在单细胞转录组领域做知识分析也快两年了,通过文献速递这个栏目很幸运聚集了一些小伙伴...

    生信技能树jimmy

扫码关注云+社区

领取腾讯云代金券