首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

tabix操作VCF文件

bgzip 可以压缩VCF文件,用法如下 bgzip view.vcf 压缩之后,原本的view.vcf文件就变成了view.vcf.gz文件。...压缩后缀为.gz, 如果想要解压缩,有以下两种用法 bgzip -d view.vcf.gz gunzip view.vcf.gz bgzip的压缩算法和gzip压缩算法有着相似之处,所以对于bgzip...需要注意的是,两种算法虽然有相似之处,但是还是有本质区别的,在对VCF文件压缩时,不可以使用gzip来代替bgzip。 对于大型的VCF文件而言,如何快速访问其中的记录也是个难点。...tabix可以对VCF文件构建索引,索引构建好之后,访问速度会快很多。...tabix对VCF文件建立索引的用法如下 tabix -p vcf view.vcf.gz 注意输入的VCF文件必须是使用bgzip压缩之后的VCF文件,生成的索引文件为view.vcf.gz.tbi,

7.1K31

文献笔记五十:vcf2poptree根据vcf文件构建进化树的网页工具

文章题目 VCF2PopTree: a client-side software to construct population phylogeny from genome-wide SNPs 完成单位...University of the Sunshine Coast 发表的时间是 2019 年12月份 发表的期刊是 PeerJ PeerJ的影响因子是2.216 中科院分区生物3区 基本功能 直接上传vcf...扯远了 工具可以直接下载,在自己浏览器端打开就可以使用, 下载链接是 https://github.com/sansubs/vcf2pop VCF2PopTree.html 这个文件直接使用浏览器打开就可以使用...可以上传压缩的vcf文件(.gz)或者没有压缩的vcf文件 还可以根据质量值(quality score)和覆盖度(coverage depth)对vcf文件进行过滤 两个计算距离的方法 三个模型...可以生成这个树文件,但是没有下载图片的按钮 目前想到的用法是:如果拿到一个vcf文件可以初步用这个程序来看一下。如果真的用来建树的话应该不会用到。

1.3K10

跟着Nature ecology and evolution学pythonvcf文件转换成fasta文件

Bruno_aDNA_analysis https://github.com/PopGenomics-WMS/Bruno_aDNA_analysis/blob/main/06.mtDNA_nuc_Phylogeny/vcf2fasta.sjf.py...这个脚本用到了 Pool python多线程处理,主要学习这个内容 遇到的问题一 如果是在windows系统下运行脚本 python vcf2fasta.sjf.py -v new.vcf -op...NameError: name 'dict_run' is not defined 这里的dict_run是使用global定义到函数里的一个变量,linux系统下就没有这个问题,windows学习通下的python...image.png 这里非纯合的位点定义为M R W这些是为啥,暂时想不明白 这个脚本有局限是,他定义了vcf文件的基因型 image.png 如果vcf文件的基因型不是这些的话就会报错keyError...python多线程的一个简单小例子 from multiprocessing import Pool def make_new_file(filename): with open(filename

72610

python通用读取vcf文件的类(可以直接复制粘贴使用)

前言   处理vcf文件的时候,需要多种切割,正则匹配,如果要自己写其实会比较麻烦,并且每次还得根据vcf文件格式或者需要读取的值不同要修改相应的代码。...因此很多人会选择一些pythonvcf的库,但是首先你得安装这个库, 并且有一些库它固定了能够读的内容,如果你的vcf的信息不在它固定的里面,就读不出来。...因此我写了这个通用的读vcf的类,直接复制粘贴这部分代码就可以方便的用这个类进行vcf文件的读取,过滤,写出等操作。...(object): ''' VCF class, read VCF, write VCF, get VCF information ''' def __init__(self...类,存储的是vcf的信息,及对vcf文件的操作,一个是Record类,它包括vcf某一行存储的全部信息 读入vcf文件 gatk_result = "realignment.vcf" gatk = VCF

2.6K20

图文详解 VCF 生信格式 (变异信息)

一、vcf 格式介绍 vcf (Variant Call Format)是一种用于存储基因组序列中的变异信息 一般用在 单核苷酸变异(SNV),小片段插入缺失(INDEL)等 也用于 拷贝数变异...Insertion:参考基因组某片段为 ACTTG,但是检测样本同样位置为 ACCCTTG,插入了CC Deletion:参考基因组某片段为 TTCGG,但是检测样本同样位置为 TTGG,缺失 C 二、vcf...|||;VT=SNP 三、vcf 文件详解 文件一般包含两部分: 注释信息(header):位于文件开始,每行以 #开始 变异信息(body):没有 #即为记录的变异信息 3.1 主要字段 黑体字为必选字段...四、vcf 的记录模式 VCF 文件可以记录不同级别的变异信息,从单一变异到个体、组织、群体或家系的变异。 4.1 只记录变异本身的信息 通常用于描述特定变异的特征,不涉及特定个体或群体的信息。...右边是在 vcf 文件中的表示方式。 那么怎样用尽可能少的核苷酸表示变异,减少冗余的记录。

1.6K20

VCF转换PLINK格式的3种方法

VCF格式作为存储分型结果的一种标准格式,在实际分析中也广泛应用。...本文总结了将vcf文件转换为plink对应文件格式的3种方式,详细展示如下 1. gatk3 在gatk3中,提供了一个名为VariantsToBinaryPed的功能,可以将VCF格式转换为plink...文件的一款常用工具,支持将vcf文件转换成plink对应的ped/map格式,基本用法如下 vcftools --vcf input.vcf --plink --out output 没有额外的家系信息...这里只是展示下其格式转换的用法,基本用法如下 plink --vcf input.vcf --recode --out output --double-id 默认转换为二进制的bed格式,对于分析更加适用...第二种参数用法如下所示 plink --vcf input.vcf --recode --out output --const-fid family_id 通过--const-fid将family id

10.2K60
领券