首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >tabix操作VCF文件

tabix操作VCF文件

作者头像
生信修炼手册
发布2020-05-11 10:14:16
发布2020-05-11 10:14:16
7.9K0
举报
文章被收录于专栏:生信修炼手册生信修炼手册

tabix 可以对NGS分析中常见格式的文件建立索引,从而加快访问速度,不仅支持VCF文件,还支持BED, GFF,SAM等格式。

下载地址:

https://sourceforge.net/projects/samtools/files/tabix/

安装过程如下

代码语言:javascript
复制
wget https://sourceforge.net/projects/samtools/files/tabix/tabix-0.2.6.tar.bz2
tar xjvf tabix-0.2.6.tar.bz2
cd tabix-0.2.6/
make

下载源代码,解压缩之后,编译即可。编译成功之后,会有两个可执行文件tabixbgzip

由于SNP位点数量巨大,对应VCF文件也非常的大,为例节省存储空间,最常见的做法就是压缩。bgzip 可以压缩VCF文件,用法如下

代码语言:javascript
复制
bgzip  view.vcf

压缩之后,原本的view.vcf文件就变成了view.vcf.gz文件。压缩后缀为.gz, 如果想要解压缩,有以下两种用法

代码语言:javascript
复制
bgzip -d view.vcf.gz
gunzip view.vcf.gz

bgzip的压缩算法和gzip压缩算法有着相似之处,所以对于bgzip压缩的文件,解压缩时除了可以使用bgzip软件本身,还可以使用gunzip进行解压缩。

需要注意的是,两种算法虽然有相似之处,但是还是有本质区别的,在对VCF文件压缩时,不可以使用gzip来代替bgzip。

对于大型的VCF文件而言,如何快速访问其中的记录也是个难点。tabix可以对VCF文件构建索引,索引构建好之后,访问速度会快很多。tabix对VCF文件建立索引的用法如下

代码语言:javascript
复制
tabix -p vcf view.vcf.gz

注意输入的VCF文件必须是使用bgzip压缩之后的VCF文件,生成的索引文件为view.vcf.gz.tbi, 后缀为.tbi

构建好索引之后,可以快速的获取指定区域的记录,示例如下

1. 获取位于11号染色体的SNP位点
代码语言:javascript
复制
tabix view.vcf.gz 11
2. 获取位于11号染色体上突变位置大于或者等于2343545的SNP位点
代码语言:javascript
复制
tabix view.vcf.gz 11:2343545
3. 获取位于11号染色体上突变位置介于2343540到2343596的SNP位点
代码语言:javascript
复制
tabix view.vcf.gz 11:2343540-2343596

很多操作VCF的软件都会识别tabix建立的索引,从而加快处理速度。很多大型项目VCF文件,也都会用bgzip压缩,然后建立tabix的索引。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-06-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信修炼手册 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 获取位于11号染色体的SNP位点
  • 2. 获取位于11号染色体上突变位置大于或者等于2343545的SNP位点
  • 3. 获取位于11号染色体上突变位置介于2343540到2343596的SNP位点
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档