根据转录因子的结合序列特征搜寻其下游

根据基因启动子序列

查找上游的转录因子(TF)比较简单

数据库很多

比如PROMO,GeneCard数据库等

具体可参考我在生物学霸的文章

(点我进入)

但是根据转录因子结合序列特征

预测其下游调控的基因有难度

如果自己研究的转录因子

通过查文献、chip-seq数据挖掘等

确定了其结合DNA序列的某个特征

如何搜寻其下游呢

其实也就是找到启动子区域

包含此序列的所有基因

最近正好有同事求助此问题

于是自己琢磨了一个土办法

那就是根据转录因子的识别序列

直接扫描每个基因的启动子序列

即硬搜!

根据此方法拿到此转录因子

潜在下游调控基因Group A…

随后可以把转录因子

连同Group A所有基因

一起放入STRING蛋白互作数据库

查看有哪些相互关联已经被发现过

哪些还没有研究过

也可以通过一些共表达数据库查询

比如上次介绍过的国产精品GEPIA

(点我回顾)

确定在某组织中与此转录因子

有表达相关性的基因Group B

Group A和B取交集后

可能得到相对更加靠谱的

目标基因簇供选择

完成上面整个任务的流程

大致如下

(假设待研究的转录因子叫TFgirl)

(1)所有基因启动子区域获取

(2)根据启动子区域获取启动子序列

(3)确认TFgirl的某个结合序列特征

(4)搜寻启动子上携带此序列的基因得到group A

(5)把TFgirl和group A一起放入STRING查看已经有过报道和未报道的相互关联

(6)搜寻与TFgirl有表达相关的基因得到group B

(7)group A和B取交集后,得到更可靠目标簇

上面6,7步都是可选步骤

如果group A基因数目较少

也可以略过6,7步

直接把group A作为目标簇进行研究

下面详细说下每一步的实操

(1)所有基因启动子区域获取

单个基因启动子区域和序列获取

前面已经介绍过好几次了

有兴趣的可以查看往期文章

本次介绍如何批量获取

借助UCSC tables

https://genome.ucsc.edu/

进入Table tools后

按如下选取目标(所有基因的染色体位置)

点击get output

选择需要的栏目

如图选中

Tip:

strand为+时,cdsStart即为编码区开始

strand为-时,cdsEnd才是编码区开始

所以strand一列务必要有

点击get output

Excel打开

随后根据编码区开始位置

确定启动子区域

此处以编码区起始点-1000bp到+200bp为例

则启动子区域

即cdsStart-1000~cdsStart+200

注意如果strand为“-”

则为cdsEnd-200~cdsEnd+1000

整理后启动子区域(大小1200bp)

(2)根据启动子区域获取启动子序列

根据染色体上位置获取序列

一般用bedtools软件

对很多人来说可能有难度

我特地准备了一份txt格式的

所有基因启动子序列

即可获取百度云下载地址

如果有linux基础

可以采用以下命令

Tip: 注意一定要有-s参数

才可以获取strand 为“-”的正确序列

(3)确认TFgirl的某个结合序列特征

此处以SMAD3-SMAD4作为举例

随便查询一篇其结合序列的论文

比如

Mol. Cell. Biol.

March 1999 vol. 19 no. 3 1821-1830

看到其结合序列的特征

“CAGACAGACAGA”

作为后续研究对象

(4)搜寻启动子上携带此序列的基因得到group A

第三步里拿到的短序列

在第二步拿到的所有基因里启动子序列

检索!

可以逐一找到目标基因

也就是启动子里有此序列的基因

即Group A

我也弄了个小shell脚本

可以实现自动检索并且计算结果基因中

TF结合序列距离基因CDSstart的距离

并且按距离排序

脚本如下

望而却步的…

可以本号后台留下

“待检索序列+ 邮箱”

苦力法斯特将尽快发送结果

上述SMAD3-SMAD4结合序列

检索结果如下(即group A)

JUN基因前排就座

此基因也正是上面文献

(Mol. Cell. Biol.

March 1999 vol. 19 no. 3 1821-1830)

里研究的SMAD3/4调控的下游基因

说明了结果的可靠性

(5)把TFgirl和group A一起放入STRING查看已经有过报道和未报道的相互关联

STRING

https://string-db.org

选择Multiple Proteins

贴入TFgirl和group A

点SEARCH

然后不停的点continue

得到相互关联的结果

这图里不是所有连接都是直接相互作用

参见下面legend

上面关联图的信息量其实很大

下面依次稍微解释下

SMAD3/SMAD4即咱们的TFgirl

周围全是启动子含有其识别序列的

潜在的下游即group A

首先看到上述文献里的JUN在列

并且跟SMAD3/4有直接相互作用

(紫色连接)

印证了预测结果

又比如VEGFA

从图来看只是跟SMAD3/4有关联

(绿色连接)

(以前研究里同时提到过)

但本次发现VEGFA启动子区域

含有SMAD3/4的结合序列

所以可能有直接调控作用

(只是个人猜测)

又如CD247

通过JUN间接跟SMAD有关联

而本次发现CD247启动子

也有SMAD3/4识别序列

所以也很可能有直接调控作用

其他的

如SCFD1和TRAPPC2L

从图上看

这两个基因相互之间有共表达现象

(黑色连接)

而本次预测发现两者启动子

都带有SMAD3/4的识别序列

似乎很说明问题了

可能都受到了SMAD的调控

所以有了间接关联

其他周围散落的基因

则是更多待开垦的土地了

Tip:

上面的例子仅仅是用SMAD3/4

的其中一种结合序列做的演示

结论也是个人见解

如果拿来当做新课题

后果自负…

不过

如果老铁们有感兴趣的转录因子

并且了解到了其识别序列

(再啰嗦一次)

可以本号后台留下

“待检索序列+ 邮箱”

苦力法斯特将尽快发送结果

(6)(7)

这两步此处不再展开

有需求的可以查看往期GEPIA介绍

此外

关于两个基因group取交集这事儿

本号未来文章也会有专门小教程

先自行摸索吧

下次见!

----------完结----------

本文章在bio-bio-bio.com同步发表

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180729G0T57O00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券