专栏首页R语言交流中心R语言实现GWAS数据文件格式转化

R语言实现GWAS数据文件格式转化

全基因组关联分析(GWAS)大家都不陌生,今天我们给大家介绍下各种格式之间转化在R语言是怎么实现的。首先我们来看下GWAS都有哪些数据格式:

1. HapMap格式,这也是当时全基因组计划的简称,自此这个也成为了其主要的一种文件格式。

其变量构成:

名称

描述

rs#

SNP的标识符

alleles

基于NCBI数据库的SNP等位基因

chrom

SNP所在的染色体

pos

SNP在染色体上的位置

strand

相对于参考序列的方向,(+)前,(-)反

assembly#

NCBI参考序列的版本

center

基因分型

protLSID

HapMap protocol

assayLSID

HapMap assay used for genotyping

panelLSID

panel of individuals genotyped

QCcode

质量控制

……

样本数据

数据实例:

2. plink数据 ped/map。这个数据格式需要两个文件共同保存数据一个map文件一个ped数据文件。

Ped文件的结构:

名称

描述

Family ID

Sample ID

样本ID

Paternal ID

父辈,0代表没有

Maternal ID

母亲辈,0代表没有

Sex code

1-male,2-female,0-unknown

Phenotype value

1-control,2-case,-9/0/无-数据丢失

Map文件结构:

名称

描述

Chromosome code

染色体编号

SNP ID

Genetic distance

SNP 位置信息,如果不确定,可以设成0

Physical position

碱基对的坐标信息

3. BED/BIM/FAM文件

BED文件结构主要是二进制文件,它的具体内容我们估计不好看,就以网页的数据为例,给大家看下长啥样子:

BIM文件结构:

名称

描述

Chromosome

SNP ID

Genetic distance

Physical position

Allele 1

Allele 2

FAM文件的结构:

名称

描述

Family ID

Sample ID

Paternal ID

Maternal ID

Sex

Affection

0-unknown,1-unaffected,2-affected

以上就是GWAS主要的文件结构,在R语言中还有另外一个结构就是GDS结构,此结构由R包gdsfmt进行创建编辑。今天我们主要讲下在包SNPRelate中如何实现这些数据结构之间的转化。

首先看下包的安装,还是需要bioconductor环境进行启动安装:

source("https://bioconductor.org/biocLite.R")

biocLite("SNPRelate")#转化plink数据格式为gds的包

接下来看下里面数据转化的主要函数:

函数名称

功能

snpgdsPED2GDS

将ped/map文件转化为GDS

snpgdsBED2GDS

将BED/BIM/FAM文件转化为GDS

snpgdsGDS2PED

将GDS文件转化为PED/MAP文件

snpgdsGDS2BED

GDS转化为BED/BIM/FAM文件

snpgdsVCF2GDS

VCF文件转化为GDS文件

通过以上函数的转化,我们就可以利用在R包或者相关软件中算法进行下面的相关性计算分析。比如R中的GWASTools中的assoRegression函数就可以利用GDS文件进行相关性分析。

欢迎大家学习交流!

本文分享自微信公众号 - R语言交流中心(R_statistics),作者:one sand

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-10-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • R语言相识生物信息学

    R在生物信息分析中有着极其重要的重要,无论我们做什么样的分析,我们都离不开强大的R。无论是统计学分析,还是想得到漂亮的图形,R都成了我们工作必不可少的一部分。无...

    一粒沙
  • R语言实现SCI级别颜色搭配

    大家投过文章的想必都有为绘图的色彩纠结的不得了的时候,今天就给大家介绍一个别人基于一些科研杂志,可视化库甚至科幻电影进行了一些颜色模板的设计的R包ggsci。安...

    一粒沙
  • R语言中颜色搭配以及圆形条形图展示

    大家在绘制图的时候是不是有的时候老师纠结颜色的搭配。今天给大家介绍一个可以自动搭配颜色的R包RColorBrewer。R包的安装载入就不再赘述。直接进入主题。

    一粒沙
  • Java虚拟机详解(九)------类文件结构

      我们知道计算机是由晶体管、电路板等组装而成的电子设备,而这些电子设备其实只能识别0与1的信号。

    IT可乐
  • lombok系列3:lombok的实验类特性

    lombok除了已经推荐使用的基本功能,还维护了一个创新型的注解,有些功能有违常规对java认知,或者只支持eclipse,其他IDE支持有问题,甚至某些环境完...

    pollyduan
  • 聊聊springcloud的featuresEndpoint

    spring-cloud-commons-2.0.0.RC1-sources.jar!/org/springframework/cloud/client/Com...

    codecraft
  • 测试开发进阶(二十九)

    rest_framework.generics.ListCreateAPIView

    zx钟
  • 分布式监控系统Zabbix-批量添加聚合图形

    之前部署了Zabbix(3.4.4版本)监控环境,由于主机比较多,分的主机组也比较多,添加聚合图形比较麻烦,故采用python脚本进行批量添加聚合图形。脚本下载...

    洗尽了浮华
  • 跟我一起写Makefile:MakeFile介绍

    http://wiki.ubuntu.org.cn/%E8%B7%9F%E6%88%91%E4%B8%80%E8%B5%B7%E5%86%99Makefile:...

    bear_fish
  • 跟我一起写Makefile

    makefile 介绍 make命令执行时,需要一个 makefile 文件,以告诉make命令如何去编译和链接程序。 首先,我们用一个示例来说明makefil...

    _gongluck

扫码关注云+社区

领取腾讯云代金券