根据基因启动子序列
查找上游的转录因子(TF)比较简单
数据库很多
比如PROMO,GeneCard数据库等
具体可参考我在生物学霸的文章
(点我进入)
但是根据转录因子结合序列特征
预测其下游调控的基因有难度
如果自己研究的转录因子
通过查文献、chip-seq数据挖掘等
确定了其结合DNA序列的某个特征
如何搜寻其下游呢
其实也就是找到启动子区域
包含此序列的所有基因
最近正好有同事求助此问题
于是自己琢磨了一个土办法
那就是根据转录因子的识别序列
直接扫描每个基因的启动子序列
即硬搜!
根据此方法拿到此转录因子
潜在下游调控基因Group A…
随后可以把转录因子
连同Group A所有基因
一起放入STRING蛋白互作数据库
查看有哪些相互关联已经被发现过
哪些还没有研究过
也可以通过一些共表达数据库查询
比如上次介绍过的国产精品GEPIA
(点我回顾)
确定在某组织中与此转录因子
有表达相关性的基因Group B
Group A和B取交集后
可能得到相对更加靠谱的
目标基因簇供选择
完成上面整个任务的流程
大致如下
(假设待研究的转录因子叫TFgirl)
(1)所有基因启动子区域获取
(2)根据启动子区域获取启动子序列
(3)确认TFgirl的某个结合序列特征
(4)搜寻启动子上携带此序列的基因得到group A
(5)把TFgirl和group A一起放入STRING查看已经有过报道和未报道的相互关联
(6)搜寻与TFgirl有表达相关的基因得到group B
(7)group A和B取交集后,得到更可靠目标簇
上面6,7步都是可选步骤
如果group A基因数目较少
也可以略过6,7步
直接把group A作为目标簇进行研究
下面详细说下每一步的实操
(1)所有基因启动子区域获取
单个基因启动子区域和序列获取
前面已经介绍过好几次了
有兴趣的可以查看往期文章
本次介绍如何批量获取
借助UCSC tables
https://genome.ucsc.edu/
进入Table tools后
按如下选取目标(所有基因的染色体位置)
点击get output
选择需要的栏目
如图选中
Tip:
strand为+时,cdsStart即为编码区开始
strand为-时,cdsEnd才是编码区开始
所以strand一列务必要有
点击get output
Excel打开
随后根据编码区开始位置
确定启动子区域
此处以编码区起始点-1000bp到+200bp为例
则启动子区域
即cdsStart-1000~cdsStart+200
注意如果strand为“-”
则为cdsEnd-200~cdsEnd+1000
整理后启动子区域(大小1200bp)
(2)根据启动子区域获取启动子序列
根据染色体上位置获取序列
一般用bedtools软件
对很多人来说可能有难度
我特地准备了一份txt格式的
所有基因启动子序列
即可获取百度云下载地址
如果有linux基础
可以采用以下命令
Tip: 注意一定要有-s参数
才可以获取strand 为“-”的正确序列
(3)确认TFgirl的某个结合序列特征
此处以SMAD3-SMAD4作为举例
随便查询一篇其结合序列的论文
比如
Mol. Cell. Biol.
March 1999 vol. 19 no. 3 1821-1830
看到其结合序列的特征
“CAGACAGACAGA”
作为后续研究对象
(4)搜寻启动子上携带此序列的基因得到group A
第三步里拿到的短序列
在第二步拿到的所有基因里启动子序列
检索!
可以逐一找到目标基因
也就是启动子里有此序列的基因
即Group A
我也弄了个小shell脚本
可以实现自动检索并且计算结果基因中
TF结合序列距离基因CDSstart的距离
并且按距离排序
脚本如下
望而却步的…
可以本号后台留下
“待检索序列+ 邮箱”
苦力法斯特将尽快发送结果
…
上述SMAD3-SMAD4结合序列
检索结果如下(即group A)
JUN基因前排就座
此基因也正是上面文献
(Mol. Cell. Biol.
March 1999 vol. 19 no. 3 1821-1830)
里研究的SMAD3/4调控的下游基因
说明了结果的可靠性
(5)把TFgirl和group A一起放入STRING查看已经有过报道和未报道的相互关联
STRING
https://string-db.org
选择Multiple Proteins
贴入TFgirl和group A
点SEARCH
然后不停的点continue
得到相互关联的结果
这图里不是所有连接都是直接相互作用
参见下面legend
上面关联图的信息量其实很大
下面依次稍微解释下
SMAD3/SMAD4即咱们的TFgirl
周围全是启动子含有其识别序列的
潜在的下游即group A
首先看到上述文献里的JUN在列
并且跟SMAD3/4有直接相互作用
(紫色连接)
印证了预测结果
又比如VEGFA
从图来看只是跟SMAD3/4有关联
(绿色连接)
(以前研究里同时提到过)
但本次发现VEGFA启动子区域
含有SMAD3/4的结合序列
所以可能有直接调控作用
(只是个人猜测)
又如CD247
通过JUN间接跟SMAD有关联
而本次发现CD247启动子
也有SMAD3/4识别序列
所以也很可能有直接调控作用
其他的
如SCFD1和TRAPPC2L
从图上看
这两个基因相互之间有共表达现象
(黑色连接)
而本次预测发现两者启动子
都带有SMAD3/4的识别序列
似乎很说明问题了
可能都受到了SMAD的调控
所以有了间接关联
其他周围散落的基因
则是更多待开垦的土地了
Tip:
上面的例子仅仅是用SMAD3/4
的其中一种结合序列做的演示
结论也是个人见解
如果拿来当做新课题
后果自负…
不过
如果老铁们有感兴趣的转录因子
并且了解到了其识别序列
(再啰嗦一次)
可以本号后台留下
“待检索序列+ 邮箱”
苦力法斯特将尽快发送结果
(6)(7)
这两步此处不再展开
有需求的可以查看往期GEPIA介绍
此外
关于两个基因group取交集这事儿
本号未来文章也会有专门小教程
先自行摸索吧
…
下次见!
----------完结----------
本文章在bio-bio-bio.com同步发表
领取专属 10元无门槛券
私享最新 技术干货