在真核生物中,基因的编码序列在DNA链上是不连续的,被非编码序列隔开。这些基因,只有在转录因子结合到其特定的DNA序列上后,基因才开始表达。那么,我们要了解的是,什么是转录因子?什么又是转录因子结合的的特定的DNA序列(转录因子结合位点)?
那首先,什么是转录因子呢?维基百科中是这么说的:转录因子(Transcription factor)是指能够结合在某基因上游特异核苷酸序列上的蛋白质,这些蛋白质能调控其基因的转录。方法是转录因子可以调控核糖核酸聚合酶(RNA聚合酶,或叫RNA合成酶)与DNA模板的结合。 转录因子的本质是与DNA特异性结合的一系列蛋白质。一般有不同的功能区域,如DNA结合结构域与效应结构域。转录因子不单与基因上游的启动子区域结合,也可以和其它转录因子形成转录因子复合体来影响基因的转录,可以产生很复杂而精细的影响。结合在DNA上的启动子以及增强子之类控制转录的区域上,促进或者抑制DNA上的遗传信息向RNA转录的过程。
什么又是转录因子结合位点?某度百科中是这么介绍的:转录因子结合位点(Transcription factor binding site,TFBS)是与转录因子结合的DNA片段,长度通常在5~20 bp范围内,一个转录因子往往同时调控若干个基因,而它在不同基因上的结合位点具有一定的保守性,又不完全相同。
好了,接下来我们看如何预测整个物种的转录因子和转录因子结合位点。
首先介绍一个神奇的网站:是由咱们北京大学开发的转录因子数据库(PlantTFDB),目前,已经更新到v5.0 版本。
http://planttfdb.cbi.pku.edu.cn/
在这个网站上提交你的蛋白质或者cds序列,就可以预测是否是转录因子,当然你可以选择一次性上传所有的基因组文件,也可以分批次上传来预测。
http://planttfdb.cbi.pku.edu.cn/prediction.php
转录因子结合位点的预测呢,也可以在线提交来预测,只需要将你自己基因集的启动子区序列提取出来,在线提交就可以出结果。启动子区一般是基因前 1 kb, 1.5kb 或者 2 kb。
http://plantregmap.cbi.pku.edu.cn/binding_site_prediction.php
当然,如果要批量预测转录因子结合位点,最好还是用Linux命令行来做预测,这样可以提高我们的效率,结合MEME套件的 fimo 工具来进行实现。
首先下载MEMEsuite 软件包,进行安装,最新版的为5.1.0版。软件地址为:http://meme-suite.org/meme-software/5.1.0/meme-5.1.0.tar.gz 下载完成后安装即可。
然后,再利用咱们北大的plantTFDB这个软件下载不同物种matrix(*.meme)
http://planttfdb.cbi.pku.edu.cn/download.php#bind_motif
最后使用MEME套件的 fimo 工具来进行预测。
fimo --oc . --verbosity 1 --thresh 1.0E-5 Ath_TF_binding_motifs.meme promoter.fa
这样我们基因组上的转录因子和转录因子结合位点的预测就完成啦。