前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >获取参考基因组chrom.sizes文件的3种方式

获取参考基因组chrom.sizes文件的3种方式

作者头像
生信修炼手册
发布2020-05-07 16:13:07
1.8K0
发布2020-05-07 16:13:07
举报
文章被收录于专栏:生信修炼手册生信修炼手册

在数据分析中,软件经常会要求参考基因组对应的chrom.sizes文件,该文件保存了基因组中的染色体名称已经对应的长度,内容示意如下

第一列为染色体名称,第二列为染色体的长度。本文介绍一下生成该文件的3种方式

1. 从UCSC下载

这种方法适用于UCSC数据库中已有的物种。以hg19为例,在UCSC的FTP中直接提供了对应的chr.sizes文件,链接如下

http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/

下载红框标记的chrom.sizes文件即可。

2. 利用samtools进行提取

samtools的faidx命令可以获取fasta文件中的序列长度信息,从其生成的后缀为fai的文件中可以获得chrom.sizes文件,用法如下

代码语言:javascript
复制
samtools faidx hg19.fa
cut -f1,2 hg19.fa.fai > hg19.chrom.sizes
3. 自己写脚本进行统计

自己写脚本就比较灵活多变了,无论采用什么编程语言都可以,这里用perl给一个示例,代码如下

运行该脚本即可,命令如下

代码语言:javascript
复制
perl cal_chrom_sizes.pl hg19.fa > hg19.chrom.sizes

第一种方法受到了UCSC数据库的限制,第二种方法运行速度块,通用性强,更加推荐使用。自己写脚本的话,就是更加的灵活,可以根据自己的需求灵活定制。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-01-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信修炼手册 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 从UCSC下载
  • 2. 利用samtools进行提取
  • 3. 自己写脚本进行统计
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档