专栏首页育种数据分析之放飞自我如何使用Tassel 做GWAS 说明文档

如何使用Tassel 做GWAS 说明文档

之前写的Tassel说明文档,虽然我都是使用命令行相关的软件,但是我发现,Linux,命令行对大多数人还是可望而不可即,分享一篇我做的说明文档,用示例数据,一步一步进行GWAS分析。具体如下:

目录

1. 下载安装软件

2. 导入数据

3. 处理数据

3.1 清洗数据

3.2 主成分分析

3.3 用基因标记估计系谱

3.4 用一般线性模型分析GLM

3.5 用混合线性模型分析

4. 欢迎关注我的微信公众号

1. 下载安装软件

下载地址:http://tassel.bitbucket.org/

这里下载的是win的64为系统,截图如下:

安装成功后,打开菜单如下:

2. 导入数据

数据下载地址:http://tassel.bitbucket.org/

截图如下:

打开data,load,选择Make Best Guess

选择几个示例数据:

打开后的数据如下

里面包括系谱数据、性状数据和基因型数据(snp)。

3. 处理数据

3.1 清洗数据

选中mdp_trait,

然后选择:Data中的TransformPhenotype,

可以对数据进行转化、标准化等操作,注意,要先对数据进行选择,然后再进行操作:

也可以对缺失值的数据进行删除,点击imput,Numerical impute,就会生成没有缺失值的数据,这只是缺失值的不同替换方法。

3.2 主成分分析

主成分分析(PCA)是一种统计方法,它可以将相互关联的变量转化为独立的主成分(PC),第一种成分包含最多的组分,其它依次降低。另一个主成分的作用可以用标记的主成分来代表群体结构。这种方法比最大似然法节省时间。因为大部分的分子标记都是字符,需要先将其转化为数值,然后再进行主成分分析,一般将纯合的标记用0代替,另一个纯合子用2代替,杂合的用1代替。PCA要求变量不能有缺失值,因此,在进行主成分分析时,需要对数据进行清洗,去除缺失值。

去掉频率小于0.05的标记,可以选择Data,选择Site,然后在最小频率的框中键入0.05,然后选择Remove minor SNP status,然后点击Filter,进行过滤,模型如下:

选择PCA,然后选择5个主成分(默认项),点击确定,就会生成结果,模型如下:

结果如下:

3.3 用基因标记估计系谱

利用主成分分析可以判断群体的结构特征,但是如果利用系谱信息,这种结果会更加准确。可以用基因型数据生成系谱信息,首先选中基因型数据,点击Analysis,选择Kinship

结果如下:

3.4 用一般线性模型分析GLM

下面我们用GLM模型来分析示例数据,mdp_genotype.hmp.txt是snp数据,里面有3093个标记,281个玉米自交系,另一个文件是mdp_population_structure.txt,里面是282个玉米自交系的群体结构,还有一个是mdp_traits.txt,里面是282玉米自交系的表型数据。

首先对基因型数据进行过滤,去掉频率小于0.05的,最小的数目是150,点击过滤,生成过滤后的基因型数据:

然后对数据进行个过滤,选择开花期dpoll这个性状,

进行协变量选择,即选择群体结构的文件,这里我们去掉Q3,数据如下:

合并数据,将这三个过滤好的数据,选中进行合并,点击Data IntersectJoin,

数据合并如下:

然后选中合并后的数据,用analysis ,GLM来进行分析

运行结果如下:

QQ图:

P-value值:

3.5 用混合线性模型分析

混合模型需要添加系谱矩阵

点击run

结果:

相关图形:

本文分享自微信公众号 - 育种数据分析之放飞自我(R-breeding),作者:邓飞2013

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-05-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 如何使用TASSEL l 做GWAS 说明文档

    之前写的Tassel说明文档,虽然我都是使用命令行相关的软件,但是我发现,Linux,命令行对大多数人还是可望而不可即,分享一篇我做的说明文档,用示例数据,一步...

    邓飞
  • 如何利用系谱进行家系划分并可视化?

    概念定义共祖系数:共祖系数为概率fAB,表示一个来自个体A,另一个来自个体B的两个同源基因(或等位基因)在系谱上是一致或相同的概率,也就是说来自同一祖先基因的概...

    邓飞
  • 笔记 | GWAS 操作流程4-3:LM模型+因子协变量

    第一列为FID 第二列为ID 第三列以后为协变量(注意,只能是数字,不能是字符!)

    邓飞
  • 如何使用TASSEL l 做GWAS 说明文档

    之前写的Tassel说明文档,虽然我都是使用命令行相关的软件,但是我发现,Linux,命令行对大多数人还是可望而不可即,分享一篇我做的说明文档,用示例数据,一步...

    邓飞
  • 物联网中的大数据架构、应用案例以及带来的好处

    作者:周硕彦 第一节 简介 近年来“物联网”(IoT)和“大数据”是两个最受瞩目的话题。在物联网的概念里,有关任何开和关切换到网络的设备皆会彼此连接,它们之间都...

    企鹅号小编
  • 大数据在环境保护中的应用

    自从2015年8月国务院发布"促进大数据发展行动纲要",将大数据提升为国家发展战略以来,在市场需求和国家战略引导下,大数据技术在各行各业的应用得以加速推进,在生...

    叶锦鲤
  • 物联网与大数据的应用结合让人类生活更美好

    近年来“物联网”(IoT)和“大数据”是两个最受瞩目的话题。在物联网的概念里,有关任何开和关切换到网络的设备皆会彼此连接,它们之间都彼此相互连结。这包括了手机、...

    人工智能的秘密
  • 中国数据驱动型互联网企业大数据产品研究报告

    本报告的大数据产业图谱以大数据产品的角度出发,对产业链角色进行划分。其中,数据管理与数据分析部分包括了大数据基础架构及相关分析技术,能够实现大数据的存储、分析、...

    钱塘数据
  • 睿码科技执行董事王海婷:大数据在治理雾霾方面有很多事可做

    数据猿导读 国内的研究机构认为,2018年我国大数据市场规模将超过 1500 亿元,但是目前大数据与环保相结合的还是少数。本文中,睿码科技执行董事王海婷将给大家...

    数据猿
  • 推荐收藏 | 100个数据分析常用指标和术语

    有个朋友是金融行业产品经理,最近在对已有的站内用户做分层与标签分类,需要对用户进行聚类分析。一般从事数据分析行业的朋友对这类词并不陌生,但是像市场运营人员就会把...

    石晓文

扫码关注云+社区

领取腾讯云代金券