前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >采用plink挑选tagSNPs

采用plink挑选tagSNPs

作者头像
生信修炼手册
发布于 2020-05-11 02:15:48
发布于 2020-05-11 02:15:48
3K10
代码可运行
举报
文章被收录于专栏:生信修炼手册生信修炼手册
运行总次数:0
代码可运行

tagSNPs叫做标签SNP, 用来代表一组高度连锁不平衡的SNP位点。对于一组高度连锁不平衡的SNP位点而言,在遗传时这些位点往往同时遗传,其包含的信息是冗余的,只需要选取其中几个SNP位点作为代表即可,这个选出来的代表位点就叫做tagSNPs, 而这些一起遗传的高度连锁不平衡的SNP位点构成了haplotype。简而言之,tagSNP可以代表单倍型中所有的SNP位点。

tagSNPs在关联分析中具有重要作用,大大减少了分析的工作量,由于tagSNP可以代表一组SNP位点,所以只需要分析tagSNP就可以了,不必对所有的SNP位点都进行分析。

plink 软件可以用于识别tagSNPs。由于tagSNPs是建立在haplotype的基础上的,所以首先需要识别haplotype block。命令如下

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
plink --bfile mydata --blocks

这条命令会产生两个文件,plink.blocks 和 plink.blocks.det 。

plink.blocks 内容如下

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
* rs7527871 rs2840528 rs7545940
* rs2296442 rs2246732
* rs10752728 rs897635
* rs10489588 rs9661525 rs2993510

每一行以*开头,代表一个haplotype block,后面是属于这个haplotype的所有SNP位点。

plink.blocks.det 内容如下

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
CHR BP1 BP2 KB NSNPS SNPS
1 2313888 2331789 17.902 3 rs7527871|rs2840528|rs7545940
1 2462779 2482556 19.778 2 rs2296442|rs2246732
1 2867411 2869431 2.021  2 rs10752728|rs897635
1 2974991 2979823 4.833  3 rs10489588|rs9661525|rs2993510

CHR表示染色体,BP1BP2分别表示haplotype block的起始和终止位置;KB表示haplotype block的长度;NSNPS表示haplotype block中的SNP位点个数;SNPS表示属于这个haplotype的所有SNP位点。

基于haplotype的结果,我们就可以去分析某个haplotype block中的tagSNPs位点了,用法如下

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
plink --bfile mydata --show-tags mysnps.txt

mysnps.txt 文件中每一行是一个SNP位点,示例如下

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
rs7527871
rs2840528
rs7545940

plink只会对mysnps.txt文件指定的一组SNP位点挑选tagSNPs。这一步会生成两个文件,plink.list和plink.tags.list。

plinks.list和mysnps.txt文件内容类似,只不过在其基础上新增了tagSNP位点的ID。plink.tags.list文件内容如下

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
SNP CHR BP NTAG LEFT RIGHT KBSPAN TAGS
rs2542334  22 16694612 2 16693517 16695440 1.923 rs415170|rs2587108

第一列的SNP位点就是tagSNP, 最后一列是该tagSNP代表的snp位点的集合。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-06-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信修炼手册 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
1 条评论
热度
最新
你好,请问一下你的mydata是什么格式呀?是过滤好的SNP vcf文件吗?
你好,请问一下你的mydata是什么格式呀?是过滤好的SNP vcf文件吗?
回复回复点赞举报
推荐阅读
编辑精选文章
换一批
如何计算群体中的单倍型频率
昨天写了一篇(单倍型的显著性分析)的博文,里面介绍了为什么GWAS分析后,要进行单倍型的显著性分析,简而言之,如果显著性位点在block中,以block为代表进行利用,可以进行PRS(多基因评分)或者MAS(分子标记辅助选择。
邓飞
2025/04/04
1160
如何计算群体中的单倍型频率
使用plink进行连锁不平衡分析
plink是进行连锁不平衡分析的常用工具之一,需要两个基本的输入文件,后缀分别为ped和map。ped文件格式在之前的文章中已经详细介绍过,这里只介绍map文件。
生信修炼手册
2020/05/09
5.5K0
统计遗传学:第九章,GWAS+群体分析+亲缘关系分析
本篇,使用数据和代码演示的形式,展示了GWAS分析、群体结构分析、亲缘关系分析三部分内容。我又重演了一遍,修正了一些bug。文中代码和数据我回头专门整理相关博文进行分享。
邓飞
2022/12/12
3.9K0
统计遗传学:第九章,GWAS+群体分析+亲缘关系分析
plink计算TagSNP和lead SNP的方法
根据 LD≥0.25 的 r2,将 5Mb 区域 内数值高于阈值的多个 SNPs 进行聚类。一个聚类中 P 值最低的 SNPs 被确定为 lead SNPs。",我知道怎么计算R2,但是我不理解这个聚类怎么做的
邓飞
2024/04/10
8070
plink计算TagSNP和lead SNP的方法
plink软件cookbook
快,真的是快,我用perl或者Python编写的代码运行需要50s,plink不到1s完成,在C语言面前,我掌握的语言是苍白的。所以,好好利用plink软件,对于速度的提升非常显著。
邓飞
2021/03/30
2.2K0
plink软件cookbook
plink软件初体验2--常用参数
plink软件是GWAS分析中常用的软件,它也是一个数据格式,plink里面有很多非常强大的功能,运算速度很快,是我日常分析中常用的软件之一。
邓飞
2020/11/26
3.4K0
基因型填充(Genotype-Imputation):从原理到操作
基因型缺失:样本中没有被测序数据覆盖到的区域,基因型就属于未知的,我们将之称为缺失位点
用户9434941
2022/02/05
2.7K0
LDSC分析实战
通过对单个表型的GWAS分析结果进行连锁不平衡回归分析,可以鉴定是否存在混淆因素,同时估计遗传力的大小;对于多个不同表型的GWAS分析结果进行分析,则可以计算表型间的遗传相似度。
生信修炼手册
2019/12/19
4K0
LDSC分析实战
多基因风险评分(PRS)分析教程
多基因风险评分(Polygenic Risk Score)分析过程概览。PRS 分析需要两个输入数据集:i)base data(GWAS):全基因组范围内遗传变异的基因型-表型关联的摘要统计信息(例如 beta,P值) ;ii)target data:目标样本中个体的基因型和表型。基于 base data 得到的 SNP 效应值计算 target data 中样本的 PRS。
生信菜鸟团
2020/08/04
16.3K0
多基因风险评分(PRS)分析教程
使用plink进行case/control关联分析
本篇文章按照plink官方提供的教程,进行一个实际操作。可以看做是官方教程的一个翻译版本。官方教程的链接如下
生信修炼手册
2020/05/11
2.3K0
笔记 | GWAS 操作流程2-4:哈温平衡检验
「什么是哈温平衡?」 ❝哈迪-温伯格(Hardy-Weinberg)法则 哈迪-温伯格(Hardy-Weinberg)法则是群体遗传中最重要的原理,它解释了繁殖如何影响群体的基因和基因型频率。这个法则是用Hardy,G.H (英国数学家) 和Weinberg,W.(德国医生)两位学者的姓来命名的,他们于同一年(1908年)各自发现了这一法则。他们提出在一个不发生突变、迁移和选择的无限大的随机交配的群体中,基因频率和基因型频率将逐代保持不变。---百度百科 ❞ 「怎么做哈温平衡检验?」 ❝「卡方适合性检验!」
邓飞
2020/04/27
4.7K0
文献笔记五十四:全基因组关联分析鉴定拟南芥中控制种子大小的调节因子
A new regulator of seed size control in Arabidopsis identified by a genome-wide association study New Phytologist 2019 Peking University
用户7010445
2020/03/03
2.1K0
全基因组关联分析(GWAS)学习笔记——3.2
这一步突然多出来一个inversion.txt文件,怎么来的还不太清楚 使用到的命令是
用户7010445
2020/03/03
1.5K0
R包“ieugwasr“教程---SNP信息查询
在孟德尔随机化研究中,我们常常会碰到SNP没有rsid的情况,这个时候需要我们把rsid添加上,如果SNP的个数不是很多的话,我们可以使用variants_chrpos()函数:
生信与临床
2022/08/21
5.7K0
R包“ieugwasr“教程---SNP信息查询
统计遗传学:第八章,基因型数据质控
大家好,我是飞哥,本章节是理论+实操,干货满满,这里我将书中的数据用代码进行了实现,你可以下载相关的数据,用我整理好的代码进行操作,666!
邓飞
2022/12/12
1.8K0
统计遗传学:第八章,基因型数据质控
haploview进行连锁不平衡分析
haploview 是基于图形界面的软件,其界面设计良好,用法简单,是进行连锁不平衡分析的主流软件之一。
生信修炼手册
2020/05/11
3.3K1
BOLT-LMM用户手册笔记
BOLT-LMM软件包目前由两种主要算法组成,即用于混合模型关联分析的BOLT-LMM算法和用于方差分量分析(即SNP遗传性的分区和遗传相关性的估计)的BOLT-REML算法。
用户1075469
2022/03/04
2.7K0
BOLT-LMM用户手册笔记
PRS多基因评分教程学习笔记(二)
之前学习了Base Data质控过程,下面继续,最近一直没有开启博客写作,十月将过,加紧补点。
用户1075469
2020/03/03
2.4K0
3DSNP 数据库 | 注释 SNP 信息
今天给大家介绍的 3DSNP 是一个集成数据库,通过探索人类非编码突变在基因和调控元件之间的远端相互作用来注释突变。其整合了千人基因组计划中 3D 染色质的相互作用,不同细胞类型中的局部染色质特征以及连锁不平衡(LD)信息。同时也提供了信息丰富的可视化工具,以显示局部和三维的染色质特征以及突变之间的遗传关联。这个网站也将不同功能类别的数据被集成到一个量化评分系统中,以便我们从大量数据中选择相对重要的突变。
生信菜鸟团
2020/05/26
4.3K0
文献笔记四十三:不同形态的南瓜重测序探索与形态和有价值的农艺性状有关的基因组变异
Whole-genome resequencing of Cucurbita pepo morphotypes to discover genomic variants associated with morphology and horticulturally valuable traits
用户7010445
2020/03/03
1K0
相关推荐
如何计算群体中的单倍型频率
更多 >
领券
💥开发者 MCP广场重磅上线!
精选全网热门MCP server,让你的AI更好用 🚀
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验