欢迎关注”生信修炼手册”!
ENCODE数据库中包含了许多转录因子的chip-seq数据,通过对chip-seq数据进行分析,可以预测得到该转录因子对应的靶基因数据。
通过整合多个转录因子的分析结果,就可以构建一个转录因子靶基因数据库,网址如下
http://amp.pharm.mssm.edu/Harmonizome/dataset/ENCODE+Transcription+Factor+Targets
该数据库中包含181种转录因子的靶基因数据,每种转录因子的靶基因对应一个数据集,示意如下
以转录因子ARID3A
为例,结果如下
从截图中也可以看到,虽然chip-seq数据有实验证据的支持,但是由于peak-calling的假阳性等问题,最终得到的靶基因的数量是非常多的,这其中的假阳性率不言而喻。
该网站的数据不仅可以浏览,也可以下载。对于单个转录因子的靶基因数据,可以通过如下API进行下载
http://amp.pharm.mssm.edu/Harmonizome/api/1.0/gene_set/ARID3A/ENCODE+Transcription+Factor+Targets
上述链接可以下载转录因子ARID3A
对应的靶基因数据,对于其他的转录因子,只需要替换掉对应的TF的名字即可。API返回的是JSON格式的数据,需要一定的编程技巧才可以得到类似excel的文件形式。
对于整个数据库,可以通过如下API获得全部转录因子对应的数据的链接
http://amp.pharm.mssm.edu/Harmonizome/api/1.0/dataset/ENCODE+Transcription+Factor+Targets
然后就可以下载到整个数据库了。整个数据库中的信息简单直接,缺点就是假阳性率高。在线检索功能非常方便,但是下载数据库的话需要一定的编程技巧进行处理。
·end·
—如果喜欢,快分享给你的朋友们吧—