前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >利用bedtools预测chip_seq数据的靶基因

利用bedtools预测chip_seq数据的靶基因

作者头像
生信修炼手册
发布2019-12-19 15:46:47
1.8K0
发布2019-12-19 15:46:47
举报
文章被收录于专栏:生信修炼手册

欢迎关注”生信修炼手册”!

通常在分析peak区域对应的靶基因时,会选取转录起始位点TSS上下游一定长度的区域作为候选的靶基因范围,本文介绍下如何利用bedtools来对peak与TSS区域的overlap情况进行分析,从而得到靶基因,可以分为以下几步

1. 得到物种对应的TSS位点信息

hg38为例,通过UCSC的FTP服务可以得到物种对应的refFlat文件,链接如下

http://hgdownload.soe.ucsc.edu/goldenPath/hg38/database/

refFLatrefGene这两个文件记录的信息相同,refFlat文件列数更少,这里我们选择下载refFlat.txt.gz, 该文件的内容如下所示

在原始文件中是没有第一行的标题的,我手动添加的标题是为了方便描述每列的含义,从该文件中可以得到TSS位点信息。

2. 整理TSS位点信息

bedtools要求输入的文件格式为bed, gff, vcf等,这里我们需要把上述下载的原始文件转换为bed格式,用法如下

代码语言:javascript
复制
awk '{print $3"\t"$5"\t"$5"\t"$2"\t"$1"\t"$4}' > hg38.tss.bed

内容如下所示

3. 运行bedtools window

bedtools windows和intersect的功能类似,都是用于求两个区间A和B的交集,只不过window会在A区间的上下游加上一个可以自定义的长度之后,再与B区间求交集,原理示意如下

以TSS上下游5kb为例,用法如下

代码语言:javascript
复制
bedtools window -a hg39.tss.bed -b peak.bed -w 5000 -sm > overlap.txt

通过window这个命令,可以灵活的定义TSS上下游的区间,快速得到peak对应的靶基因。

·end·

—如果喜欢,快分享给你的朋友们吧—

扫描关注微信号,更多精彩内容等着你!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-04-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信修炼手册 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 得到物种对应的TSS位点信息
  • 2. 整理TSS位点信息
  • 3. 运行bedtools window
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档