专栏首页生信修炼手册利用bedtools预测chip_seq数据的靶基因

利用bedtools预测chip_seq数据的靶基因

欢迎关注”生信修炼手册”!

通常在分析peak区域对应的靶基因时,会选取转录起始位点TSS上下游一定长度的区域作为候选的靶基因范围,本文介绍下如何利用bedtools来对peak与TSS区域的overlap情况进行分析,从而得到靶基因,可以分为以下几步

1. 得到物种对应的TSS位点信息

hg38为例,通过UCSC的FTP服务可以得到物种对应的refFlat文件,链接如下

http://hgdownload.soe.ucsc.edu/goldenPath/hg38/database/

refFLatrefGene这两个文件记录的信息相同,refFlat文件列数更少,这里我们选择下载refFlat.txt.gz, 该文件的内容如下所示

在原始文件中是没有第一行的标题的,我手动添加的标题是为了方便描述每列的含义,从该文件中可以得到TSS位点信息。

2. 整理TSS位点信息

bedtools要求输入的文件格式为bed, gff, vcf等,这里我们需要把上述下载的原始文件转换为bed格式,用法如下

awk '{print $3"\t"$5"\t"$5"\t"$2"\t"$1"\t"$4}' > hg38.tss.bed

内容如下所示

3. 运行bedtools window

bedtools windows和intersect的功能类似,都是用于求两个区间A和B的交集,只不过window会在A区间的上下游加上一个可以自定义的长度之后,再与B区间求交集,原理示意如下

以TSS上下游5kb为例,用法如下

bedtools window -a hg39.tss.bed -b peak.bed -w 5000 -sm > overlap.txt

通过window这个命令,可以灵活的定义TSS上下游的区间,快速得到peak对应的靶基因。

·end·

—如果喜欢,快分享给你的朋友们吧—

扫描关注微信号,更多精彩内容等着你!

本文分享自微信公众号 - 生信修炼手册(gh_0146e37a8a70),作者:lzyg

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-04-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 自己动手计算TSS Enrichment score

    Encode将TSS Enrichment score作为ATAC文库质控的一个指标,不同的参考基因组注释文件,对应的阈值也不同,示意如下

    生信修炼手册
  • 从GTF文件中提取TSS上下游1kb的区间,要多少行代码?

    在ATAC_seq数据分析中,需要绘制reads在TSS位点附近的分布图, 如下所示

    生信修炼手册
  • 又一个ATAC分析的pipeline:PEPATAC

    PEPATAC是基于python开发的一个ATAC数据分析的pipeline, 网址如下

    生信修炼手册
  • Linux crond 不执行原因分析

    阳光岛主
  • post multipart data boundary问题 使用curl 向jersey post文件

    原以为curl 模拟post file跟post string类似,-d参数一加 ,header一加就完了,这次遇到个问题,却怎么都搞不定。 curl模拟pos...

    财主刀刀
  • JS常用代码块

    版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。

    奋飛
  • 理解SAP Leonardo并不难

    前面写过一篇关于Leonardo的简介《SAP Leonardo了解一下》,但只是限于理论上的说法一样,并不通俗易懂,到底什么是SAP Leonardo,今天用...

    matinal
  • new一个Vue

    感谢支持ayqy个人订阅号,每周义务推送1篇(only unique one)原创精品博文,话题包括但不限于前端、Node、Android、数学...

    ayqy贾杰
  • 网页文件浏览器

    本文由腾讯云+社区自动同步,原文地址 https://stackoverflow.club/article/fronted_file_explore/

    羽翰尘
  • 整理几个超实用的前端提效 shell 命令

    curl 是常用的命令行工具,用来请求 Web 服务器。它的名字就是客户端(client)的 URL 工具的意思。curl 功能非常强大,它的命令可以直接放到 ...

    coder_koala

扫码关注云+社区

领取腾讯云代金券