专栏首页生信修炼手册depth, bedgraph, bigwig之间的联系与区别

depth, bedgraph, bigwig之间的联系与区别

欢迎关注”生信修炼手册”!

在chip_seq的分析结果中,经常会通过igvtools或者UCSC等基因组浏览器对样本的测序深度分布进行可视化,方便直观的比较样本间的差异,示意如下

比对基因组之后会产生一个bam文件,我们可以根据bam文件可以计算得到测序深度,所谓测序深度,指的是基因组每个bp的碱基上覆盖到的reads数目,samtools计算测序深度的用法如下

samtools depth input.bam > depth.txt

输出文件的内容如下

chr1    11714   1
chr1    11715   1
chr1    11716   1
chr1    11717   1
chr1    11718   1
chr1    11719   1

第一列为染色体,第二列为染色体上的每个碱基的位置,第三类为覆盖该位点的reads数目。以人类基因组为例,基因组大小约为3G, 如果在文件中记录每个位置上的测序深度,那么该文件的体积是非常大的,为了更加有效的记录测序深度的信息,科学家提出了两种新的文件格式,bedgraph和wiggle。

首先来介绍下bedgraph格式,这种格式实际上就是用窗口的方式代替原始的每个碱基的测序深度,文件内容可以分为两个部分

  1. track line
  2. data line

track line是首行的一句声明,内容如下

track type=bedGraph

用来声明文件格式,方便在UCSC基因组浏览器上进行展示,除了type属性外,还有很多其他的属性。具体参考以下链接

http://genome.ucsc.edu/goldenPath/help/bedgraph.html

data line记录每个窗口内的测序深度信息,通过bedtools可以产生bedgraph格式的输出,用法如下

bedtools  genomecov -ibam input.bam -bg > depth.bedgraph

输出内容如下

chr1    11873   12227   1
chr1    12612   12721   1
chr1    13220   14361   1
chr1    14361   14409   2
chr1    14409   14829   1
chr1    14969   15038   1

第二列和第三列列出了窗口的起始和终止位置,第四列是该窗口内的测序深度,从官网给的示意图也可以看出depth和begraph之间的区别

-d参数就是产生depth文件,-bg产生bedgraph文件,可以看到,软件将相同测序深度的连续碱基作为一个窗口。bedgraph在原始depth的基础上合并了相同测序深度的连续碱基,所以文件大小有所降低。

在bedgraph窗口计数的方式,人们又提出了wiggle格式以及对应的二进制bigwig格式,该格式的组成和bedgraph类似,也包含了track和data两部分,track内容示意如下

track type=wiggle_0

data line允许有以下三种方式

1. bed format

bed格式和bedgraph的data line类似,示意如下

chr19 59303500 59303800 1
chr19 59303800 59304100 2
chr19 59304100 59304400 3
chr19 59304400 59304700 4

2. fixedStep

示意如下

fixedStep chrom=chr19 start=59307401 step=300 span=300
1000
900
800
700

span指定窗口的长度,step指定步长,每一行代表该窗口内对应的数值。

3. variableStep

示意如下

variableStep chrom=chr19 span=150
59304701 10.0
59304901 12.5
59305401 15.0
59305601 17.5

span指定窗口的长度,第一列指定窗口的起始位置,第二列指定窗口内对应的数字。 同样一个bam文件,不同格式的文件大小如下

  1. bam 2.7G
  2. depth 55G
  3. begraph 550M
  4. bigwig 15M

从文件大小而言,bigwig是最小的,软件读取最为方便,使用的也最为广泛。但是需要注意的是,在这种格式中,通常会用取平均值等方法来表示一个窗口内所有碱基的测序深度,所以和另外两种格式相比,它代表的信息是稍微有点失真的,但是窗口相比染色体而言非常的小,这种程度的失真并不会影响我们的直观判断,所以才会应用的这么广泛。

·end·

—如果喜欢,快分享给你的朋友们吧—

扫描关注微信号,更多精彩内容等着你!

本文分享自微信公众号 - 生信修炼手册(gh_0146e37a8a70),作者:lzyg

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-03-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • minfi 分析甲基化芯片数据-pipeline篇(附完整代码)

    对于如何使用minfi 分析甲基化芯片数据,我们在之前的文章中详细讲解了每一步处理的具体用法。今天主要给出一个piepeline, 包括从文件读取一直到最终的D...

    生信修炼手册
  • XHMM分析原理简介

    XHMM是一款利用WES数据分析CNV的软件,利用PCA降维来归一化外显子区的测序深度信息,然后通过隐马可夫模型来预测CNV,对应的文章链接如下

    生信修炼手册
  • 使用MISO进行可变剪切的分析

    MISO是一款经典的可变剪切分析工具,和rmats类似,该软件也支持对可变剪切事件进行定量和差异分析,网址如下

    生信修炼手册
  • 离线式人脸识别技术,助力智慧社区的建设

    近年来物联网技术快速发展,每一项技术革新,对事物发展都会有巨大促进作用。物联网技术在智能门禁上广泛应用,智能门禁发展如何,对智慧社区建设具有重要影响。在过去智能...

    AI社区
  • Akka(29): Http:Server-Side-Api,Low-Level-Api

     Akka-http针对Connection的两头都提供了方便编程的Api,分别是Server-Side-Api和Client-Side-Api。通过这两个Ap...

    用户1150956
  • 搜狗AI合成主播再次进化,发布站立式合成主播

    现在,3个月后,这个AI主播不仅能“坐在”演播室,开始替代人类播报新闻。还能“手舞足蹈”,运用起肢体语言丰富表达了。

    量子位
  • [Skr-Shop]做电商还搞不清一元秒杀、常规秒杀、限时购?

    今天来补一下秒杀系统的业务分析,前几天发了PPT,今天把业务这块内容摘出来补充到「http://skrshop.tech/」的文档里。另外,关于秒杀系统核心设计...

    用户1093396
  • Android—Room 数据库迁移(Migration)

    code_horse
  • Nature biotechnology:重复实验揭示宏基因组学的潜力 (扩增子综述系列2)

    我们对任何生态系统中的大多数微生物分类群的功能了解都是极其有限的,而且通常局限于测量群落的总酶过程(gross enzymatic processes)。此外,...

    Listenlii-生物信息知识分享
  • 数据格式-层级关系展示

    人生不如戏

扫码关注云+社区

领取腾讯云代金券