专栏首页生信修炼手册使用HOMER进行peak calling

使用HOMER进行peak calling

欢迎关注”生信修炼手册”!

HOMER是一款进行motif预测的软件,除此之外,该软件还集成了许多其他功能,可以识别用于分析chip_seq,RNA_seq,Hi-C等数据。本文主要介绍如何通过HOMER来进行peak calling。

在HOMER中,通过findPeaks这个命令来进行peak calling, 这个命令有以下多种模式,对应不同类型的peak的识别

  1. factor 这种模式用于识DNA和蛋白质结合位点,主要用于识别转录因子的结合位点,预测出来的peak的长度是一个固定的数值。
  2. histone 这种模式用于识别发生组蛋白修饰的区域,该模式识别到的peak长度不完全相同,是变化的数值。
  3. super 这种模式用于识别超级增强子。
  4. groseq 这种模式用于分析链特异性的GRO_seq数据
  5. tss 这种模式用于分析5’RNA_seq/CAGE/5’GRO_seq, 目的是识别promoter/TSS区域
  6. dnase 这种模式用于分析DNase_seq数据,目的是识别DNase酶超敏位点
  7. mC 这种模式用于识别DNA甲基化区域

对于chip_seq的peak calling而言,常用的模式就是factor, histone和super这3种模式。具体用法如下,分为两步

1. makeTagDirectory

比对基因组得到bam文件之后,首先用通过makeTagDirectory这个命令,生成一个文件夹,用法如下

makeTagDirectory out_dir align.bam

输出目录文件如下

├── chr1.tags.tsv
├── chr2.tags.tsv
├── chr3.tags.tsv
...
├── chrY.tags.tsv
├── tagAutocorrelation.txt
├── tagCountDistribution.txt
├── tagInfo.txt
└── tagLengthDistribution.txt

默认将每条染色体的比对情况有一个tags.tsv文件来存储,除此之外,还有几个以tag开头的文件,包含了一些简单的统计信息。

tagCountDistribution.txt包含了测序深度的分布信息,第一列为测序深度的值,第二列为对应的reads的比例。根据这个文件的前10行,在R里面可视化如下

对于chip样本而言,unique mapping reads的比例越高越好,所以可以看到测序深度为1的比例是最高的。

tagLengthDistribution.txt包含了reads的长度分布信息,第一列为长度,第二列为对应reads的比例, 在R里面可视化如下

可以对插入片段的长度分布有一个直观的了解。

tagAutocorrelation.txt用于评估测序数据正负链上测序深度分布的相关性,在R里面可视化如下

正负连的峰值间距离为插入偏度的长度。

2. findPeaks

分别对input和IP样本建立好tagdirectory之后就可以peak calling, 用法如下

findPeaks ip_tagdir/ -i input_tagdir -style histone -o homer.peak.txt

输出结果和macs2的类似,分成了两部分,文件头尾以#开头的行为注释行,部分信息如下

peak对应的行示意如下

更多参数和细节请参考官方文档。

·end·

—如果喜欢,快分享给你的朋友们吧—

扫描关注微信号,更多精彩内容等着你!

本文分享自微信公众号 - 生信修炼手册(gh_0146e37a8a70),作者:lzyg

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-03-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • bismark 识别甲基化位点-比对篇

    bismark 软件根据序列的比对情况就可以识别甲基化位点,首先需要对基因组建立索引,建好索引之后,就可以开始比对了。

    生信修炼手册
  • MACS:使用最广泛的peak calling软件之一

    MACS全称是Model-based Analysis of ChIP-Seq,是使用的最广泛的peak calling软件之一,其基本原理简介如下

    生信修炼手册
  • peak注释信息揭秘

    在chip_seq数据分析中,peak calling是核心,得到peak区间之后,我们首先需要对peak进行注释。所谓的注释其实是一个比较宽泛的概念,其中包含...

    生信修炼手册
  • 基于不完全轨迹数据的目的地预测(CS Machine Learning)

    三分之二购买新车的人相较于使用内置导航系统,更偏好于去应用一个相应的替代品。但是,对于很多应用来说,了解用户趋向的目的地和路线是至关重要的。举个例子:以此推荐靠...

    Donuts_choco
  • [温故知新] Text-level semantics

    The em element represents stress emphasis of its contents.

    Jace
  • Windows 10 四月更新,文件夹名称也能区分大小写了

    发布于 2018-06-14 00:02 更新于 2018-09...

    walterlv
  • ECCV 2020 | 这个模型的脑补能力比GAN更强,ETH提出新型超分辨率模型SRFlow

    超分辨率是一个不适定问题(ill-posed problem),它允许对给定的低分辨率图像做出多种预测。这一基础事实很大程度上被很多当前最优的深度学习方法所忽略...

    机器之心
  • HTML学习

    当用户要在表单中键入字母、数字等内容时,就会用到文本输入框。文本框也可以转化为密码输入框。

    Cloud-Cloudys
  • 线性代数--MIT18.06(二十)

    行列式用一个数值就包含了所有信息,从行列式的值出发我们又可以发现一些新的公式,用于计算我们之前讲解过得一些可以求解但是没有公式用于求解的东西

    fireWang
  • 线性代数--MIT18.06(十八)

    从这一讲开始,进入线性代数中另一个重点——行列式,行列式的目的在于后面章节将会讲解的特征值。

    fireWang

扫码关注云+社区

领取腾讯云代金券