如何获取目标基因的转录因子(上)——Biomart下载基因和motif位置信息

科研过程中我们经常会使用Ensembl(http://asia.ensembl.org/index.html) 网站来获取物种的参考基因组,其中BioMart工具可以获取物种的基因注释信息,以及跨数据库的ID匹配和注释等。

参考基因组和基因注释文件一文中有详细介绍如何在Ensembel数据库中获取参考基因组和基因注释文件。(点击蓝字即可阅读)

生信分析中,想要找到感兴趣基因的转录因子结合位点,该怎么做呢?

1. 文件准备

首先需要准备以下3个文件,后面两个文件可以在ensembl网站中下载:

  1. 感兴趣基因的名称列表(1列基因名即可)
  2. 基因组中各基因位置信息列表(6列的bed文件)
  3. 基因组中各转录因子结合位点信息列表(5列的bed文件)

2. 什么是bed文件?

bed格式文件提供了一种灵活的方式来定义数据行,以此描述基因注释的信息。BED行有3个必须的列和9个可选的列。 每行的数据格式要求一致。

关于bed文件格式的介绍,在https://genome.ucsc.edu/FAQ/FAQformat.html#format1中有详细说明。

我们需要下载的基因位置信息列表是一个6列的bed文件,每列信息如下:

Chromosome/scaffold name

Gene start (bp)

Gene end (bp)

Gene stable ID

Gene name

Strand

染色体的名称(例如chr3)

Gene起始位点

Gene终止位点

Gene stable ID

Gene name

定义基因所在链的方向,+或-

注:起始位置和终止位置以0为起点,前闭后开。

转录因子结合位点列表是一个5列的bed文件,每列信息如下:

Chromosome/scaffold name

Start (bp)

End (bp)

Score

Feature Type

染色体的名称(例如chr3)

TF起始位点

TF终止位点

Score

转录因子的名字

具体内容见后面示例,更方便理解。

3. BioMart数据下载

1. 进入Ensembl主页后点击BioMart

2. 使用下拉框-CHOOSE DATASET- 选择数据库,我们选则Ensembl Genes 93;这时出现新的下拉框-CHOOSE DATASET- ,选择目的物种,以Human gene GRCh38.p12为例。如果自己实际操作,需要选择自己的数据常用的基因组版本。如果没有历史包袱,建议选择GRCh38最新版。

3. 选择数据库后,点击Filters对数据进行筛选,如果是对全基因组进行分析可不用筛选, 略过不填

4. 点击Attributes,在GENE处依次选择1-6列的内容,勾选顺序便是结果矩阵中每列的顺序。

5. 如上图中所示,点击results后跳转下载页面,中间展示了部分所选的数据矩阵,确定格式无误后点击GO即可下载。

6. 转录因子结合位点矩阵的下载类似上面,不过在下拉框-CHOOSE DATASET- 选择数据库时,我们选则Ensembl Regulation 93,再选择Human Binding Motif (GRCh38.p12)

7. 在Attributes处选择需要的信息列,点击ResultsGO进行数据下载

将上述下载的两个文件分别命名为 GRCh38.gene.bedGRCh38.TFmotif_binding.bed ,在Shell中查看一下:

基因组中每个基因所在的染色体、位置和链的信息,以及对应的ENSG编号和Gene symbol。

Chromosome/scaffold name        Gene start (bp) Gene end (bp)   Gene stable ID  Gene
3       124792319       124792562       ENSG00000276626 RF00100 -1
1       92700819        92700934        ENSG00000201317 RNU4-59P        -1
14      100951856       100951933       ENSG00000200823 SNORD114-2      1
22      45200954        45201019        ENSG00000221598 MIR1249 -1
1       161699506       161699607       ENSG00000199595 RF00019 1

第五列为人中的转录因子,每一行表示每个转录因子在基因组范围的结合位点分布,即其可能在哪些区域有结合motif。这些区域是与TF的结合motif矩阵相似性比较高的区域,被视为潜在结合位点。有程序MEME-FIMOHomer-Findmotifs.pl可以完成对应的工作。

Chromosome/scaffold name        Start (bp)      End (bp)        Score   Feature Type
14      23034888        23034896        7.391   THAP1
3       10026599        10026607        7.054   THAP1
10      97879355        97879363        6.962   THAP1
3       51385016        51385024        7.382   THAP1
16      20900537        20900545        6.962   THAP1

原文发布于微信公众号 - 生信宝典(Bio_data)

原文发表时间:2018-08-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏用户画像

3.2.3页面置换算法

进程运行时,若其访问的页面不在内存而徐将其调入,但内存已无空闲时间时,就需要从内存中调出一页程序或数据,送入磁盘的对换区。 而选择调入页面的算法就称为页面置...

49830
来自专栏FreeBuf

Office”组合”式漏洞攻击样本分析

by hcl, nine8 of code audit labs of vulnhunt.com 1 概述 网上公开一个疑似CVE-2014-1761的RTF样...

26390
来自专栏漫漫深度学习路

tensorflow自定义op:work_shard

强行解释 work_shard 在学习 tensorflow 自定义 op 的时候碰到的,google 了一下,也没有找到详细的介绍,难道是姿势不对?? ...

36570
来自专栏跟着阿笨一起玩NET

winform 在指定目录下已经生成资源Image图片的方式

假设在项目目录下存在一个Image目录,注意其中图片已经都设置成为:生成方式为资源文件。

21120
来自专栏BioIT-TECH

癌症中克隆种群结构统计推断分析软件PyClone安装小记

PyClone 是一种用于推断癌症中克隆种群结构的统计模型。 它是一种贝叶斯聚类方法,用于将深度测序的体细胞突变集分组到假定的克隆簇中,同时估计其细胞流行率(p...

95020
来自专栏Y大宽

Enrichment Map User guide用户指南

http://www.baderlab.org/Software/EnrichmentMap/UserManual#rnk

36730
来自专栏大数据挖掘DT机器学习

利用Python绘制MySQL数据图实现数据可视化

第1步:确保MySQL已安装且在运行 安装教程: 亲测:MySQL安装与python下的MySQLdb使用(附软件与模块包) 第2步:使用Python连接...

90360
来自专栏生信宝典

分子对接简明教程 (4)

文件格式解释 PDB文件 (详细格式描述) 基本信息部分 HEADER记录: 包括分子的分类、提交日期、PDB ID TITLE记录: 为该结构的描述,如果有多...

47070
来自专栏云霄雨霁

同步工具类

16640
来自专栏逆向技术

PE格式第三讲扩展,VA,RVA,FA(RAW),模块地址的概念

          PE格式第三讲扩展,VA,RVA,FA的概念 一丶VA概念 VA (virtual Address) 虚拟地址的意思 ,比如随便打开一个PE...

33450

扫码关注云+社区

领取腾讯云代金券