前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >使用homer进行peak注释

使用homer进行peak注释

作者头像
生信修炼手册
发布2019-12-19 15:43:54
7.4K0
发布2019-12-19 15:43:54
举报
文章被收录于专栏:生信修炼手册

欢迎关注”生信修炼手册”!

homer软件集成了许多的功能,包括peak calling, peak注释,motif分析等等,通过这一个软件,就可以完成chip_seq的绝大部分分析内容,不可谓不强大。本文主要介绍这个软件进行peak注释的用法。

在homer中通过annotatePeaks.pl这个脚本进行peak的注释,分为以下两步

1. 准备参考基因组的注释信息

homer内置了许多物种的注释信息供我们下载,通过以下命令可以查看所有内置的物种

代码语言:javascript
复制
perl configureHomer.pl --list

其中GENOMES部分对应的就是内置支持的物种,部分内容展示如下

代码语言:javascript
复制
GENOMES
v5.10   hg19    v6.0    human genome and annotation for UCSC hg19
+       mm10    v6.0    mouse genome and annotation for UCSC mm10
-       sacCer3 v6.0    yeast genome and annotation for UCSC sacCer3
-       panTro5 v6.0    human genome and annotation for UCSC panTro5

hg19为例,下载方式如下

代码语言:javascript
复制
perl configureHomer.pl  -install hg19

下载的信息保存在homer安装目录的data目录下,以hg19为例,在data/genome/hg19目录下,文件列表如下

代码语言:javascript
复制
├── chr1.fa
├── chr2.fa
├── chr3.fa
├── ...fa
├── chrom.sizes
├── conservation
├── hg19.annotation
├── hg19.aug
├── hg19.basic.annotation
├── hg19.full.annotation
├── hg19.miRNA
├── hg19.repeats
├── hg19.rna
├── hg19.splice3p
├── hg19.splice5p
├── hg19.stop
├── hg19.tss
├── hg19.tts
└── preparsed

包含了参考基因组的fasta序列以及不同区域的区间文件。 hg19.basic.annotation内容如下

代码语言:javascript
复制
Intergenic      chr1    1       10873   +       N       1900000000
promoter-TSS (NR_046018)        chr1    10874   11974   +       P       1
non-coding (NR_046018, exon 1 of 3)     chr1    11975   12227   +       pseudo  125025
intron (NR_046018, intron 1 of 2)       chr1    12228   12612   +       I       810684
non-coding (NR_046018, exon 2 of 3)     chr1    12613   12721   +       pseudo  125026
intron (NR_046018, intron 2 of 2)       chr1    12722   13220   +       I       810684
non-coding (NR_046018, exon 3 of 3)     chr1    13221   13361   +       pseudo  125027

同时在data/accession目录下,还有参考基因组对应的基因注释文件。 human2gene.tsv记录了基因的ubigene id, gene symbol等信息,内容如下所示

代码语言:javascript
复制
ADE73044        3107    Hs.656020       NM_002117       ENSG00000204525         HLA-C
ENSG00000113163 10087   Hs.270437       NM_005713       ENSG00000113163         COL4A3BP
DB065460        9947    Hs.132194       NM_005462       ENSG00000155495         MAGEC1
ENSP00000282466 285313  Hs.58561        NM_178822       ENSG00000152580         IGSF10
DB029361        22849   Hs.131683       NM_014912       ENSG00000107864         CPEB3
XP_016877211    87      Hs.235750       NM_001102       ENSG00000072110         ACTN1
EAW77897        56965   Hs.270244       NM_020213       ENSG00000137817         PARP6

human.description记录表了基因的功能描述,类别等信息,示意如下

2. 进行注释

用法如下

代码语言:javascript
复制
annotatePeaks.pl peak.bed hg19 > peak.annotation.xls

第一个参数为peak的bed文件,第二个参数为参考基因组的名称。输出结果如下所示

注释的内容包含两个部分,第一部分是距离peak区间最近的转录起始位点TSS,第二部分是对peak在基因组区域的分布,比如TSS,TTS,3’UTR,5’UTR等区域。

·end·

—如果喜欢,快分享给你的朋友们吧—

扫描关注微信号,更多精彩内容等着你!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-04-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信修炼手册 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 准备参考基因组的注释信息
  • 2. 进行注释
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档