bedgraph, wig, bigwig 学习之bedGraphToBigWig 报错(End coordinate......)

一:前言 最近师兄给我布置了一个小任务:把bedgraph文件转成bigwig形式,然后拖到IGV里去看看。 原因:由于bedgraph 的文件比较大,可以转成比较小的文件才方便进行操作。比如说bigwig.(小问题:为什么bigwig而不是wig捏?) bedgraph, wig, bigwig的格式了解一下???

1:bedgraph 主要是来源于bed文件,包含了bed文件的信息.

UCSC bedgraph的 解释

重点: bedgraph文件里面得包含4种信息

举一个栗子。打开一个bedgraph的文件:能看到很多信息

bedgraph示例

bedgarph文件记录的信息由以下几个部分组成:

chr    start  position    end position   value
染色体   起始位置       终止位置         值

bedgraph 文件包含了trak信息,以及value值(如果是负数的话可能是副链上的值的信息)

UCSC bedgragh文件的例子

2:关于bed文件 BED文件 要求的最基本的是染色体信息,起始位置,终止位置。 如果要记录的更加详细的话可以有后面的选项

bed文件的说明,来自emble

3:wig文件信息 包括了染色体的长度,步长是多少,span是多少。(有多少个一样的位点的value是多少个,方便压缩信息)

wig的基本信息

4:bigwig bigwig是wig文件的二进制形式,为了压缩文件大小的 但是为了建立这个二进制的形式,是必须要提供参考基因组大小的也就是chromsize的文件信息的

5:报错信息

报错信息

这个报错信息说,我的bedgraph的区域有超区的现象 代码看红框框里的:

代码信息

这里要求必须得有chromsize的文件信息!!!! 思考:我们可以根绝bedgraph信息直接算出来bigwig的信息,但是为什么要chromsize的文件呢? 感谢小伙伴的指点@UnderStorm , 在这个步骤中,它是先转成wig文件,再根据wig文件再转成bigwig文件进行压缩。 回到刚才的问题: 既然存在的超区的问题,我回去检查了一下bgh的文件信息,根据报错的那一栏,发现bedgraph那一行的信息不准确。

Reference: UCSC的bedgraph说明文档 http://www.genome.ucsc.edu/goldenPath/help/bedgraph.html ensembl 的说明文档 http://asia.ensembl.org/info/website/upload/bed.html 生信技能树wig、bigWig和bedgraph文件详解 http://www.bio-info-trainee.com/1815.html

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

扫码关注云+社区

领取腾讯云代金券