展开

关键词

采用plink挑选tagSNPs

plink 软件可以用于识别tagSNPs。由于tagSNPs是建立在haplotype的基础上的,所以首先需要识别haplotype block。 命令如下 plink --bfile mydata --blocks 这条命令会产生两个文件,plink.blocks 和 plink.blocks.det 。 基于haplotype的结果,我们就可以去分析某个haplotype block中的tagSNPs位点了,用法如下 plink --bfile mydata --show-tags mysnps.txt mysnps.txt 文件中每一行是一个SNP位点,示例如下 rs7527871 rs2840528 rs7545940 plink只会对mysnps.txt文件指定的一组SNP位点挑选tagSNPs 这一步会生成两个文件,plink.list和plink.tags.list。 plinks.list和mysnps.txt文件内容类似,只不过在其基础上新增了tagSNP位点的ID。

96030

plink软件cookbook

所以,好好利用plink软件,对于速度的提升非常显著。 功能强大,我在使用plink的过程中,它逐渐给我惊喜,仔细研究说明文档非常有必要。 1 (PART) Part I 软件介绍 1 plink 软件介绍 准备写一系列plink软件常用的命令,最近在数据分析时,需要将基因型的数据转化为0-1-2的形式,编程实现效果太差,100万的数据,plink 格式」 「第三种常用的格式:hapmap格式」 3.1 plink正常格式转二进制格式 比如这里有plink格式的文件,前缀为a的plink文件: $ ls a.map a.ped 将其转化为二进制文件 --cow --dog --horse --mouse· --rice --sheep 3.2 plink二进制格式转为正常格式 这里有plink格式的文件,前缀为b的plink二进制文件 文件转为vcf文件 这里有plink格式的文件,前缀为c的plink二进制文件: $ ls *c* c.hh c.log c.map c.ped 将其转化文件:d.vcf plink --file

47130
  • 广告
    关闭

    一大波轻量级工具升级重磅来袭

    代码传递思想,技术创造回响!Techo Day热忱欢迎每一位开发者的参与!

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    plink PED 文件格式介绍

    plink是进行全基因组关联分析常用的软件之一,该软件需要两种基本格式的输入文件,ped和map。本篇重点介绍一下ped格式。 phenotype代表表型,其中表型可以是离散型的(比如质量性状),也可以是连续型的(比如数量性状),plink会自动识别对应的类型。通过以上6个必须的字段,可以完整的映射到某一性状的家系图上。

    1.6K30

    使用plink进行casecontrol关联分析

    本篇文章按照plink官方提供的教程,进行一个实际操作。可以看做是官方教程的一个翻译版本。 官方教程的链接如下 http://zzz.bwh.harvard.edu/plink/tutorial.shtml 1. 下载测试数据 wget http://zzz.bwh.harvard.edu/plink/hapmap1.zip unzip hapmap1.zip 文件列表如下 ├── hapmap1.map ├── 查看输入文件的基本信息 plink运行时,会联网检查软件是否是最新版,如果不想进行这一操作,可以添加--noweb选项。plink 需要两个输入文件,分别为.ped和.map格式。 命令如下 plink --file hapmap1 --noweb 需要注意的是,plink默认情况下,会对输入数据进行过滤,主要是过滤突变位点和和样本。

    98331

    plink中casecontrol关联分析细节解析

    作为关联分析最常用的工具,plink支持多种关联分析的算法。 plink中的费舍尔精确检验是一个双边检验的结果,用R语言验证的结果如下 ? 目前plink只有-assoc支持输出置信区间和多重假设检验的校正,--model不支持。

    1.2K31

    初探PLINK文件格式(bed,bim,fam)

    在我们进行GWAS分析时,经常会使用到PLINK软件,对于新手来说可能掌握起来比较困难,所以首先我将和大家分享PLINK文件的基本格式。 我在这里讲到的PLINK文件主要有三类,即bed,bim和fam文件。 N/4的结果取整后加1作为各组的字节数,编码信息如下: 00:基因型是bim文件第一个等位基因的纯合子 01:基因型缺失 10:基因型是杂合子 11:基因型是bim文件第二个等位基因的纯合子 如果你在PLINK 关于PLINK文件的基本格式就介绍完毕了,希望大家能牢记各个文件的结构信息,这在后续的数据分析中非常重要。

    1.2K20

    使用plink进行连锁不平衡分析

    plink是进行连锁不平衡分析的常用工具之一,需要两个基本的输入文件,后缀分别为ped和map。ped文件格式在之前的文章中已经详细介绍过,这里只介绍map文件。 plink 进行LD分析有以下两种方式: 1. 对所有的SNP位点进行分析 命令如下: plink --file test --r plink --file test --r2 --r会直接输出所有LD分析的结果,而--r2会根据R2值对结果进行过滤 输出文件为plink.ld。 更多参数的用法请参考官方文档 http://zzz.bwh.harvard.edu/plink/ld.shtml

    1.9K21

    一文掌握Plink文件格式转换

    Plink是我们常用的全基因关联分析工具,具有多种文件格式。许多分析工具都需要Plink的文件格式作为输入文件,今天小编就带大家掌握多种Plink文件格式的转换,解决分析过程中遇到的输入文件问题。 ## 下载Plink wget -c http://s3.amazonaws.com/plink1-assets/plink_linux_x86_64_20200219.zip ## 解压 unzip plink_linux_x86_64_20200219.zip vcf 转为 ped/map ## 使用vcftools vcftools --vcf snp.vcf --plink --out snp ## 使用plink plink --vcf snp.vcf --recode --out snp ped和map文件是Plink的基本格式。 bed/bim/fam plink --file snp --make-bed --out snp_test ## bed/bim/fam转换为ped/map plink --bfile snp_test

    87820

    GBS hapmap 格式 转化为Plink格式方法

    但是在GWAS和GS中,数据筛选,质控,构建矩阵都是使用的plink的格式。本文介绍如何tassel 和vcftools两个软件,将hapmap格式的数据转化为plink格式的数据。 格式:ped和map plink格式是基因组选择中经常用到的文件类型, plink软件功能强大,运行速度快。 文件 vcftools --vcf test.vcf --plink --out tassel.test.vcf2plink 生成tassel.test.vcf2plink文件 5.4 使用plink 将vcf文件, 变为bed文件 plink --file tassel.test.vcf2plink --make-bed --out tassel.test.vcf2plink ? 5.5 使用plink将bed文件转化为map和ped文件 plink --bfile tassel.test.vcf2plink --recode --out result 结果生成:result.ped

    1.1K20

    plink软件初体验2--常用参数

    plink软件是GWAS分析中常用的软件,它也是一个数据格式,plink里面有很多非常强大的功能,运算速度很快,是我日常分析中常用的软件之一。 格式」 「第三种常用的格式:hapmap格式」 1.1 plink正常格式转二进制格式 比如这里有plink格式的文件,前缀为a的plink文件: $ ls a.map a.ped 将其转化为二进制文件 文件转为vcf文件 这里有plink格式的文件,前缀为c的plink二进制文件: $ ls *c* c.hh c.log c.map c.ped 将其转化文件:d.vcf plink --file 1.4 二进制plink文件转为vcf文件 和正常plink文件类似,除了--file 变为--bfile即可。 1.5 vcf文件转化为plink文件 「转化为正常plink文件:」 现有文件: $ ls e.vcf e.vcf plink --vcf e.vcf --recode --out f 「注意

    1.3K50

    plink软件初体验1--初试牛刀

    准备写一系列plink软件常用的命令,最近在数据分析时,需要将基因型的数据转化为0-1-2的形式,编程实现效果太差,100万的数据,plink十几秒完成,真的是厉害,非常值得学习,所以,开始搞起! .map格式 格式说明链接: http://zzz.bwh.harvard.edu/plink/data.shtml#map ❝map格式的文件, 主要是图谱文件信息, 主要包括染色体名称, 所在的染色体和所在染色体的坐标 snp3 「(第二列)」 这三个SNP在第一个染色体上 「(第一列)」 第三列为0 第四列为SNP所在染色体的坐标 .ped格式 格式说明链接:http://zzz.bwh.harvard.edu/plink PLINK will give an error message in most circumstances when something has gone wrong. 命令行」 plink --file test2 --recodeA 「结果:」 FID IID PAT MAT SEX PHENOTYPE snp1_2 snp2_1 snp3_2 1 1 0 0 1

    58830

    Excel格式的SNP数据怎么变为plink格式

    有时候,我们会遇到Excel格式的基因型数据,这篇博文介绍一下如何手动转为plink格式。 可以在Excel中整理,也可以在R语言中整理。 主要思路是根据plink的格式特点,针对性的满足,然后导出,就可以了。 1. 2. plink的格式 「.map格式」 格式说明链接: http://zzz.bwh.harvard.edu/plink/data.shtml#map ❝map格式的文件, 主要是图谱文件信息, 主要包括染色体名称 所以,下面的任务就是把Excel的格式,变为plink的ped和map格式。 3. 测试plink plink --file file --missing 搞定! ---- 大家好,我是邓飞,一个持续分享的农业数据分析师

    10250

    VCF转换PLINK格式的3种方法

    plink是目前使用的最为广泛的关联分析软件,其定义的ped/map文件系统,及其对应的二进制bed/bim/fam已经成为关联分析的标准文件格式。 在进行关联分析之前,我们首先要做的就是将其他格式的文件转换为plink对应的文件格式。 VCF格式作为存储分型结果的一种标准格式,在实际分析中也广泛应用。 本文总结了将vcf文件转换为plink对应文件格式的3种方式,详细展示如下 1. gatk3 在gatk3中,提供了一个名为VariantsToBinaryPed的功能,可以将VCF格式转换为plink 对应的ped/map格式,基本用法如下 vcftools --vcf input.vcf --plink --out output 没有额外的家系信息,在输出结果中,family id和sample 3. plink plink1.9版本支持直接读取vcf/gen等多种文件格式,所以使用该版本时其实不需要专门进行格式转换,软件默认会将不同的格式转换为二进制bed文件格式。

    5K60

    Plink v0.1.0 发布——基于Flink的流处理平台

    在 Windows 上部署 Plink Plink 进行独立单机部署,可以在 Windows 上进行部署,以下是部署的操作详情。 https://github.com/hairless/plink/blob/master/plink-web/src/main/resources/META-INF/sql/mysql/plink_init.sql 安装 Plink 项目编译 编译 git clone https://github.com/hairless/plink.git cd plink mvn clean package -Dmaven.test.skip =true 成功后在 plink/plink-dist/target/ 下会有一个 plink-${version}-bin.tar.gz 文件,如: plink-0.1-bin.tar.gz 解压 找到上面的 plink-${version}-bin.tar.gz 文件,找一个合适的目录,假设该目录为 PLINK_HOME 鼠标右键解压,然后切换到 PLINK_HOME 目录。

    39020

    笔记 | GWAS 操作流程3:plink关联分析--完结篇

    plink --bfile HapMap_3_r3_11 --recode --out test ? 这里的数据: 基因型个体:110个 SNP个数:1073743 2. plink关联分析的类型 ❝**参考:**https://www.jianshu.com/p/286050959dbd? utm_campaign=haruki ❞ 2.1 阈值性状(1,2) plink的语境叫“case and control”,即表型值数据是两类数据:1,2,其中0和-9都表示缺失。 FDR,是一种最小化假阳性预测比例的方法 plink的解决方法是--adjust,生成多种类型的p值。 总结 这是使用plink计算GWAS分析的流程,包括数据的清洗,以及建模,以及出结果,以及可视化。

    3.8K31

    全基因组关联分析(GWAS)学习笔记——3.1

    --bfile HapMap_3_r3_1 --missing 输出结果中plink.imiss文件是个体标记的缺失率;plink.lmiss是每个标记个体的缺失率 原教程中提供了R脚本对这两个文件使用直方图进行可视化 ,我这里选择ggplot2对结果进行可视化 indmiss<-read.table(file="<em>plink</em>.imiss",header=T) snpmiss<-read.table(file="<em>plink</em>.lmiss image.png 首先是根据snp缺失和个体缺失,阈值设置为0.2 <em>plink</em> --bfile HapMap_3_r3_1 --geno 0.2 --make-bed --out HapMap_3_r3 _2 <em>plink</em> --bfile HapMap_3_r3_2 --mind 0.2 --make-bed --out HapMap_3_r3_3 再把阈值设置为0.02 <em>plink</em> --bfile HapMap _3_r3_3 --geno 0.02 --make-bed --out HapMap_3_r3_4 <em>plink</em> --bfile HapMap_3_r3_4 --mind 0.02 --make-bed

    88920

    plink计算的PCA为什么和GCTA计算的不一样?

    今天同事问了我一个问题,为什么plink计算的pca和GCTA计算得不一样?然后就引出的今天的查看说明文档,也证明了世界上就怕认真二字。 计算PCA时,用的是yang的方法 所以,如果如果plink的PCA和GCTA的VanRaden方法相遇时,结果就不一致了。 的--kinship构建的G矩阵 plink的--kinship构建的G矩阵不是VanRaden的矩阵,而是yang的矩阵,所以很少用于GBLUP的分析 7,pca用什么方法? 也就是plink的--pca的结果,同样也是gcta默认的计算PCA的参数,--make-grm-alg 0。 8,为什么要用GCTA计算PCA? plink默认没有给出所有的(应该也可以指定PCA的个数,然后手动计算,待验证)。

    28420

    GWAS全基因组关联分析流程(BWA+samtools+gatk+Plink+Admixture+Tassel)

    我梳理了GWAS全基因组关联分析的整个流程,并提供了基本的命令,用到的软件包括BWA、samtools、gatk、Plink、Admixture、Tassel等,在此分享出来给大家提供参考。 四、Plink格式转换及主成分分析 1.VCF格式转换为 ped/map格式 vcftools --vcf snp.vcf --plink --out snp 2.ped/map格式转换为bed/bim /fam格式 plink --file snp --make-bed --out snp_test 3.主成分分析 Plink --threads 8 --bfile snp --pca 10 --out cv hapmap3.bed $K | tee log${K}.out; done #2 3 4 5 6 7 8 9 10分成的群体结构数 hapmap3.bed 输入文件 注意: 如果你的数据格式是plink 的bed文件, 比如a.bed, 那么你应该包含a.bim, a.fam 如果你的数据格式是plink的ped文件, 比如b.ped, 那么你应该包括b.map K值根据实际情况进行设置,通过比较得到最佳

    2.6K31

    blupf90 VS Plink VS GCTA 基因型数据PCA分析

    主要是用同一批数据, 测试不同软件和方法对结果的影响, 不同方法有: BLUPF90构建G矩阵, 计算PCA BLUPF90构建H矩阵, 计算PCA PLINK构建G矩阵, 计算PCA GCTA构建G矩阵 , 计算PCA 结论: BLUPF90构建G, H, Plink构建G矩阵, 结果一致. 3. plink根据G矩阵做PCA 代码: plink --file b --pca 3 结果生成: plink.eigenval plink.eigenvec plink.log plink.nosex 4. gcta64根据G矩阵做PCA 将ped文件转化为bed文件 plink --file b --make-bed --out c 生成grm文件 gcta64 --bfile c --autosome 结论 blupf90的G矩阵, H矩阵, plink的PCA结果一致. GCTA构建的PCA结果不太一致, 怀疑是参数默认的有问题, 回头查看一下.

    82510

    PLNIK 的多种文件格式转换

    vcf 转为 ped/map 使用vcftools vcftools --vcf snp.vcf --plink --out snp 使用plink plink --vcf snp.vcf --recode --out snp ped和map文件是Plink的基本格式。 /tfam转换为ped/map plink --tfile snp_test --recode --out snp ped/map 与 bed/bim/fam互换 ped/map转换为bed/bim/ fam plink --file snp --make-bed --out snp_test bed/bim/fam转换为ped/map plink --bfile snp_test --recode /bim/fam 转为 vcf plink --bfile snp --export vcf --out snp_test 常用的Plink格式转换就是这些,大家可以根据自己实际需要相互转换。

    29900

    扫码关注云+社区

    领取腾讯云代金券