R语言是昨天安装的R3.6版本(Linux系统安装老版本的R语言,比如R3.6?)。
Plink是我们常用的全基因关联分析工具,具有多种文件格式。许多分析工具都需要Plink的文件格式作为输入文件,今天小编就带大家掌握多种Plink文件格式的转换,解决分析过程中遇到的输入文件问题。
C:\Program Files (x86)\VMware\VMware vCenter Converter Standalone\plink.exe
输入: a -> b -> c -> d -> e -> f 输出: b -> a -> d -> c -> f -> e
Plink是一个基于Flink的流处理平台,旨在基于 [Apache Flink]封装构建上层平台。提供常见的作业管理功能。如作业的创建,删除,编辑,更新,保存,启动,停止,重启,管理,多作业模板配置等。Flink SQL 编辑提交功能。如 SQL 的在线开发,智能提示,格式化,语法校验,保存,采样,运行,测试,集成 Kafka 等。
第一列为FID 第二列为ID 第三列以后为协变量(注意,只能是数字,不能是字符!)
在前几期的内容中,小陈带大家下载并处理好了数据,接下来就是用PLINK软件进行分析了,在分析之前,小陈先教大家如何下载并在Windows系统里使用PLINK软件。
我在stackoverflow中问了一个问题, 获得了答案, 对snakemake的理解也加深了一步.
虽然plink2.0已经存在好久了,但是一直用的都是plink1.9,因为语法熟悉。更主要是plink2.0语法变动太大,害怕步子迈得太大了……
plink --vcf snp.vcf --recode --out snp ped和map文件是Plink的基本格式。
发现plink2 和plink 差别还是挺大的,没什么plink2 教程,还是用老版。
飞哥注:这篇是我同事苏惠写的,内容更全面,代码更完整,我的上一篇plink计算的PCA为什么和GCTA计算的不一样?是一个引子,而且这一篇给出了plink --pca 样本数时,
我已经下载整理好了,下载本书的电子版pdf+数据+代码,链接:书籍及配套代码领取--统计遗传分析导论
不不不,它只是一个软件,一个只能在命令行添加参数的软件,没有图形界面,没有快捷方式,不能用鼠标点击的软件。
快,真的是快,我用perl或者Python编写的代码运行需要50s,plink不到1s完成,在C语言面前,我掌握的语言是苍白的。所以,好好利用plink软件,对于速度的提升非常显著。
参考 Create VCF from .bim, .bed and .fam files
大家好,我是飞哥,本章节是理论+实操,干货满满,这里我将书中的数据用代码进行了实现,你可以下载相关的数据,用我整理好的代码进行操作,666!
plink软件是GWAS分析中常用的软件,它也是一个数据格式,plink里面有很多非常强大的功能,运算速度很快,是我日常分析中常用的软件之一。
作为最广泛使用的关联分析工具,plink支持卡方检验,费舍尔精确检验,逻辑回归,线性回归等多种分析方法,用法简单,运行速度快。使用plink进行case/control逻辑回归, 只需如下所示的一句代码
R语言和plink软件都是常用的软件,随着对软件的熟悉,就不用自己写代码了,直接改代码了,既然改代码,就在一个环境下运行就行了,不想来回切换R和Bash。问题来了:如何在R语言中运行plink软件。
tagSNPs叫做标签SNP, 用来代表一组高度连锁不平衡的SNP位点。对于一组高度连锁不平衡的SNP位点而言,在遗传时这些位点往往同时遗传,其包含的信息是冗余的,只需要选取其中几个SNP位点作为代表即可,这个选出来的代表位点就叫做tagSNPs, 而这些一起遗传的高度连锁不平衡的SNP位点构成了haplotype。简而言之,tagSNP可以代表单倍型中所有的SNP位点。
GWAS分析时,无论是一般线性模型,还是广义线性模型,都要对协变量进行处理。数值类型的协变量(比如初生重数值协变量,PCA的值)直接加进去,因子协变量(比如不同的年份,不同的地点,场等)需要转化为虚拟变量。
大家好,我是邓飞,我本来以为vcftools处理gvcf已经天下无敌了,没想到bgen格式更豪横,快看,这是谁的部下?
准备写一系列plink软件常用的命令,最近在数据分析时,需要将基因型的数据转化为0-1-2的形式,编程实现效果太差,100万的数据,plink十几秒完成,真的是厉害,非常值得学习,所以,开始搞起!
大家好,我是邓飞,有时候我们做PCA图,图很漂亮,我们解释一通,充满自信。但是,你知道这个图解释变异的百分比吗?如果解释度很低,那也意义不大。这我们就需要在PCA图中,将PC1和PC2的解释百分比附上面,比如PC1解释8%的变异,PC2解释4%的变异,那么这个PCA图可以解释12%的变异。
格式说明链接: http://zzz.bwh.harvard.edu/plink/data.shtml#map
大家好,我是邓飞,之前写了Haploview进行单倍型分析的教程(Haploview做单倍型教程一文打尽),有示例数据和操作流程,但是有些朋友用自己的数据分析时,会有各种问题,最近星球上有小伙伴发了一个帖子,叙述了自己的问题,各种尝试,还是错误,淡淡的忧伤和砸电脑的冲动……
平时在分析时,也有时候需要将外部准备好的数据,更新到plink数据中。plink有两种格式类型,二进制文件(bed,bim,fam)在fam文件的第六列,文本文件(ped,map)在ped文件的第六列。数据量小时,可以用excel打开,直接手动增加,如果数据量大,就需要编程实现,比如R语言,Perl或者Python。其实,plink自己有一个参数,可以自动更新表型数据,只需要将所要更新的表型数据准备好就行了。下面介绍一下操作流程。
这个肯定厉害了,是「大家闺秀」,是「名门望族」,是「根红苗正」的GWAS分析软件。
今天介绍一下基因型数据清洗的一般步骤,我们知道很多分析之前,都要做基因型数据清洗,包括:
plink是目前使用的最为广泛的关联分析软件,其定义的ped/map文件系统,及其对应的二进制bed/bim/fam已经成为关联分析的标准文件格式。在进行关联分析之前,我们首先要做的就是将其他格式的文件转换为plink对应的文件格式。
或许你还在为无法绕过反病毒软件获得Meterpreter shell而懊恼,试试Shellter 5.1吧。 首先需要获取一个正常的Windows exe可执行文件,然后它会将shellcode添加进去,这样就可以成功地修改这个文件并且使其绕过反病毒软件的监测了。Shellter有一个自动模式,该模式会使整个操作过程变得十分的简单。在这篇文章中,我使用Kali 2.0作为主机,另外一台Windows作为靶机。 0x01 磨刀: Kali中不包含最新版本的Shellter,如果要获取最新版本需要下载、解压Z
「原理:」检查性别差异。先验信息,女性的受试者的F值必须小于0.2,男性的受试者的F值必须大于0.8。这个F值是基于X染色体近交(纯合子)估计。不符合这些要求的受试者被PLINK标记为“PROBLEM”。
这一步突然多出来一个inversion.txt文件,怎么来的还不太清楚 使用到的命令是
这里,总结一下GWAS的学习笔记,GWAS全称“全基因组关联分析”,使用统计模型找到与性状关联的位点,用于分子标记选择(MAS)或者基因定位,这次学习的教程是plink做GWAS,plink是个很好的软件,但是我之前做GWAS都是使用R包,听说plink和EMMAX做GWAS更快,更好,更容易写出pipeline。就利用网上的信息写一个操作笔记,先操作plink,然后是EMMAX。对于一些有模型基础的同学,理解起来应该不难。
本篇文章按照plink官方提供的教程,进行一个实际操作。可以看做是官方教程的一个翻译版本。官方教程的链接如下
二分类性状的logistics可以使用plink软件进行分析。这里介绍一下数据的整理和命令的应用。
大家好,我是邓飞。hmp格式是一种基因型格式,但是现在更多的是vcf或者plink格式的数据,今天介绍一下plink格式的数据如何导入到GAPIT软件中进行分析。
今天同事问了我一个问题,为什么plink计算的pca和GCTA计算得不一样?然后就引出的今天的查看说明文档,也证明了世界上就怕认真二字。
清洗数据的时间占80%的时间,有句话这样讲:“Garbage in, Garbage out(垃圾进,垃圾出)”,所以清洗数据非常重要,今天学习一下基因组数据如何清洗。
plink是进行连锁不平衡分析的常用工具之一,需要两个基本的输入文件,后缀分别为ped和map。ped文件格式在之前的文章中已经详细介绍过,这里只介绍map文件。
典型的情况:现在有4条染色体的数据,每个染色体一套plink文件,如何合并在一起。
https://www.nature.com/articles/s41588-023-01423-w
有些人可以成功,也有很多人各种报错,这里介绍一下常见的问题以及解决方法。帮到别人,记录一下,能帮到更多的人,毕竟:
https://www.nature.com/articles/s41588-023-01340-y
本篇,使用数据和代码演示的形式,展示了GWAS分析、群体结构分析、亲缘关系分析三部分内容。我又重演了一遍,修正了一些bug。文中代码和数据我回头专门整理相关博文进行分享。
「先对SNP进行缺失质控:」这里--geno 0.02是plink中对SNP进行的缺失质控,质控标准为0.02,即删除缺失率大于2%的SNP。
有时候,我们会遇到Excel格式的基因型数据,这篇博文介绍一下如何手动转为plink格式。
看完gcta, 发现plink也可以构建G矩阵, 也可以进行PCA分析, 本数据使用plink的解决方案:
领取专属 10元无门槛券
手把手带您无忧上云