前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Haploview做单倍型教程一文打尽

Haploview做单倍型教程一文打尽

作者头像
邓飞
发布2023-09-06 10:55:04
1.6K0
发布2023-09-06 10:55:04
举报
文章被收录于专栏:育种数据分析之放飞自我

今天介绍一下单倍型分析,之前做GWAS分析时有同学问我单倍型分析相关的问题,当时我还不太会,知识性的东西,特别是软件操作类的东西,从来都是熟能生巧,研究一下,做一下项目,就会了。会了,就要写个教程,然后理解就更深了。

为何要做单倍型分析?

我们做完GWAS分析,得到了显著性位点,注释到了上下游的基因,这时,一个想法浮现在眼前:你如何证明你找到的基因不是假阳性???答案就是单倍型分析,看一下显著性位点附近的区域,是否处于一个高度连锁的区域(block),看一下基因是否在block里面,如果显著位点附近有高连锁的BLOCK并且注释的基因也在block里面,可以证明挖掘的基因没问题,结果八九不离十了,十分可靠。

那如何做单倍型分析呢?

如果按照分析思路的话,是选择显著性为点上下游的区域,计算SNP之间的LD值,然后根据某个阈值进行划分Block,如果有block,那么block区域内只有少数的组合,这些少数的组合就是单倍型。我们定位基因,或者分子标记辅助,都会用到单倍型。

好消息是,不用自己手动计算LD值,然后变成划分block了,有现成的软件。坏消息是软件也要学习,目前主流的两款软:Haploview和LDblockshow,前者是桌面版软件,后者是命令行软件,两者结果基本一致。

LDBlockshow的教程:LDblock绘制连锁不平衡和单体型图

第一篇:Haploview做单倍型教程1--软件安装

下面是Haploview做的结果:

下面是LDblockShow做的结果:

两者结果是一致的。

Haploview因为是GUI界面,可以鼠标点点点的形式,所以更简单:

1. 软件下载

「官网:」 https://www.broadinstitute.org/haploview/downloads#JAR

「windows系统:」

「Linux系统:」

2. 配置java环境

https://www.java.com/zh-CN/download/

下载安装好之后,在终端运行java,出现帮助文档,说明配置成功。

2.1 windows系统

cmd终端打开,键入java,出现下面界面,说明配置成功。

2.2 Linux系统

终端打开,键入java,出现下面界面,说明配置成功。

3. windows安装

安装好之后,打开HaploView软件:

打开软件:

4. Linux安装

终端下,键入命令:

代码语言:javascript
复制
java -jar Haploview.jar 

出现界面:

上面就是搞定了软件的安装。

第二篇:Haploview做单倍型教程2--分析教程

1. 数据准备

需要做单倍型分析的是基因型数据,一般是显著性的SNP,提取上下游500kb,然后进行block的分析。

这里,准备的是plink数据,比如我们要提取:

  • 染色体是6
  • 开始位置是1000000
  • 终止位置是2000000
代码语言:javascript
复制
vcftools --vcf aaa.vcf --chr 6 --from-bp 1000000--to-bp 2000000--recode --out block1

将其转化为plink的map和ped数据:

代码语言:javascript
复制
plink --vcf block1.recode.vcf --recode --out a1

2. 整理数据

将map的第二列和第四列提取出来,保存为a1.info文件。

ped数据,保持不变:

3. 导入数据

选择第一种格式:Linkage Format,然后将ped数据导入到Data File中,将info数据导入到Locus Information File文件中。

结果:

查看Block:

查看TaggerSNP:

上面就是下数据分析实操方法。

第三篇:Haploview做单倍型教程3--结果解读

1. LDblock整体结果

上图就是最常见的LDblock,该图的结果解读。

2. SNP在染色体的分布

最上面是SNP的物理位置,有些是均匀的,有些是不均匀的

3. SNP的名称信息

中间是SNP的名称,用细线联系在一起

4. block解释

最下面红白的正方形是LD值的可视化,每一个正方形是两两SNP的LD结果,颜色越淡说明LD值越小,如果相邻的SNP之间的LD大于某个阈值(比如0.9),那么就构成一个block,下图中的两个红框里面的黑框,就是两个LDblock,第一个block包括的SNP有10,11,12三个SNP,block的距离为82kb,第二个block包括两个snp,包括14和15两个snp,block的距离为32kb。

5. 查看block的频率和他们之间的联系

下图中,第一个block中,一共三个SNP,单倍型分别是:TTC,TTA,CCA,TCA,他们的频率分别是0.548,0.281,0.09和0.078,它们的频率之和为1。第二个block一共有两个SNP,单倍型分别是AG,GA和AA,频率分别是0.402,0.565,0.034,他们之间的频率之和为1.

最下面的0.67是两个block的关联,两个block的线是两者的关联性,线条越黑,说明关联性越强。

6. 查看TaggerSNP

这里有两个block,可以选择两个TaggerSNP代表这两个block

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-07-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 育种数据分析之放飞自我 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 软件下载
  • 2. 配置java环境
  • 2.1 windows系统
  • 2.2 Linux系统
  • 3. windows安装
  • 4. Linux安装
  • 1. 数据准备
  • 2. 整理数据
  • 3. 导入数据
  • 1. LDblock整体结果
  • 2. SNP在染色体的分布
  • 3. SNP的名称信息
  • 4. block解释
  • 5. 查看block的频率和他们之间的联系
  • 6. 查看TaggerSNP
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档