这个数据库整合了ENCODE;ReMap以及一些独立发表的CHIP-seq数据,同时还整合GTEx ;TCGA 以及ARCHS4内的RNA-seq数据内的转录因子共表达数据。另外还整合了Enrichr数据库内基因之间的转录因子共发生分析。利用以上数据库分析的结果,我们可以建立一个多基因转录因子调控网络。
基因转录的过程当中,基因由DNA转录成mRNA的过程受到很多因素的调控。其中就包括了转录因子的调控。转录因子调控的一个主要的过程是转录因子和基因启动子区进行结合进而来对其表达进行调控。由于每个转录因子都有自己的固定的识别序列,所以基于特定的识别序列,我们就可以了解每个转录因子都可能调控哪些基因。随着测序数据的发展,我们也可以通过cihp-seq来准确的了解转录因子的结合区域。同时可以通过RNA-seq来分析转录因子和结合基因之间是否存在共表达关系。之前的转录因子预测的数据库其实都是基于上面的原理来进行构建的。最近,随着单细胞测序数据的增多,我们也可以在单个细胞当中研究不同系统的调控情况。所以今天就给大家介绍一个纳入了单细胞测序数据的一个可以预测基因调控网络的数据库:GRNs[http://www.grndb.com/]
TRRUST数据库是一个记录转录因子调控关系的数据库,不仅包含转录因子对应的靶基因,也包含了转录因子间的调控关系。目前该数据库只存储了人和小鼠相关的调控信息,而且这些调控关系是通过文本挖掘的方法从文献中整理得到的。
ENCODE数据库中包含了许多转录因子的chip-seq数据,通过对chip-seq数据进行分析,可以预测得到该转录因子对应的靶基因数据。
ReMap收集来自GEO和Encode项目中人的chip_seq数据,对来自不同细胞系,不同类别转录因子的数据进行归类整理,网址如下
KnockTF(http://www.licpathway.net/KnockTF/search.php)数据库就是基于这个目的构建的数据库。这个数据库收录了目前公共数据库当中敲减该转录因子后做的表达谱(芯片、二代测序)的数据,进而来反映这个转录因子变化后对于基因表达的影响。
transcription factors表示转录因子的名称,对应的基因,家族,序列等基本信息,DNA motifs代表该转录因子结合区域的保守模式,DNA binding sites代表该转录因子实际的结合区域,target genes代表转录因子调控的靶基因。
在人和小鼠中,已经识别到的转录因子有几百种之多。众所众知,转录因子的调控作用是具有细胞或者组织特异性的,在某种特定的组织或细胞中,发挥调控功能的只是一小部分转录因子。
转录调控是一种重要的调控机制,转录因子对基因的表达调控是其中研究的最广泛的一个领域。研究转录因子,最经典的数据库就是TRANFAC数据库,网址如下
JASPAR是一个免费公开的转录因子数据库,在该数据库中收录了转录因子的mitif信息,可以用来预测转录因子与序列的结合区域。网址如下
对于转录因子而言,我们最想知道的信息就是其对应的靶基因。转录因子相关数据库非常的多,有些数据库直接提供了靶基因的信息,比如TRANSFAC, 有些数据库只提供了motif的信息,比如JASPAR, 我们只能通过软件预测在基因的启动子序列上是否有对应的motif, 从而识别转录因子的靶基因。
转录调控是生命活动中重要的调控机制,通过chip_seq数据,我们可以得到转录因子或者组蛋白修饰和基因之间的调控关系。chipBase数据库收集了来自10个物种共一万多个样本的chip_seq数据,整理出了转录因子和各种基因,包括蛋白编码基因,lncRNA,miRNA, tRNA等ncRNA之间的调控网络,该数据库网址如下
研究转录因子调控的靶基因有两种常用的手段,第一种就是利用chip-seq等方式,研究特定转录因子在基因组的结合位置,从而判断其调控的基因,因为有实验证据的支持,所以这种方式得到的调控基因会更加可信,存在的问题就是peak calling时的假阳性率问题。
GTRD从SRA, GEO, ENCODE等公共数据库中收集转录因子相关的chip_seq数据,采用标准流程进行peak calling分析,并基于已有的转录因子motif数据,预测了转录因子结合位点TFBS, 数据库网址如下
unibind采用了ChIP-eat这个工具对ReMap数据库中转录因子的chip_seq数据进行分析,对于来自JASPAR数据库中的人类转录因子,通过结合chip_seq数据的分析结果和转录因子的PWM等模型来准确预测转录因子结合位点,该数据库网址如下
转录因子(Transcription factor,TF)是一类能够以序列特异性方式结合DNA并对基因转录起关键调控作用的蛋白质,在各种生物过程和疾病发生中起非常关键的作用。鉴定、分类和注释转录因子以及分析转录因子的调控和功能等一直是研究的热点和基础,它们在生物体内形成一套指导基因表达的复杂系统引得众多科学家浓厚的研究兴趣。
在基因转录调控方面,基因的启动区域会受到转录因子的调控,进而影响基因的功能。这样和转录因子结合的区域,我们称之为增强子。而超级增强子的话,则是包含了很多的增强子的区域。这段区域密集的收到转录因子的调控,这样就更加影响基因的变化了。SEanalysis(http://licpathway.net/SEanalysis/index.do)是一个用来分析超级增强子调控的数据库。这个数据库可以鉴定超级增强子相关基因,转录因子对于超级增强区域的调控以及鉴定到的转录因子上游的相关通路。
FactorBook整合了ENCODE数据库中人和小鼠的chip_seq数据,以转录因子为中心,进行了转录因子motif分析, 与其他转录因子或者组蛋白修饰的关联分析,数据库网址如下
高通量测序在这几年火速发展,常规的RNA-seq分析是我们先找到合适的相关基因,然后进行下游靶基因的验证。其实,研究调控基因上游的转录因子更能加深后期机制研究的深度。通过转录因子注释和表达量聚类分析,再结合WGCNA分析确定候选转录因子与所关注的性状之间的相关性,建立以转录因子为hub gene的调控网络,这是一个非常系统的机制研究思路。
昨天我们介绍了这个数据库的其中一部分功能 KnockTF:转录因子敲除数据库(一),今天把这个数据库的其它功能介绍完。
我们获得的差异基因【学习:一文就会TCGA数据库基因表达差异分析,GEO数据库表达数据的提取以及limma包进行差异分析,TCGA数据库:GDCRNATools包下载数据、处理数据以及差异分析】,下游除了富集分析【学习:clusterProfiler包进行KEGG,GO,GSEA富集分析;FunRich数据库:一个主要用于基因和蛋白质的功能富集以及相互作用网络分析的独立的软件工具】等以外,如果我们想找到参与调控这些差异基因的转录因子,作为研究的上游机制,是一个思路。而很多转录因子预测的数据库是基于转录因子的Chip-seq的数据来进行构建的,这样的结果能说明某一个转录因子结合某一段序列,但是结合并不一定说明可能影响这个基因的表达,所以最好做一个这个转录因子导入/导出的表达数据来说明对于基因表达的影响。
1写在前面 上期介绍了刚刚更新的AnimalTFDB v4.0数据库,不仅收录的转录因子非常全面,而且同时提供了检索转录因子的强大工具,可以通过转录因子家族和物种进行List检索。😘 本期我们介绍一下其他检索方法,以及如何预测转录因子和转录因子结合位点。🧐 2通过基础信息检索 1️⃣ 点击Search进入检索界面。 📷 ---- 2️⃣ 这里我们可以通过基础信息进行检索。 📷 ---- 3️⃣ 大家可以输入Ensembl ID,Entrez ID或者Gene Symbol等进行查找。 📷 ---- 4️⃣
KnockTF(http://www.licpathway.net/KnockTF/search.php)数据库就是基于这个目的构建的数据库。关于这个数据库,我在很久前的文章【这个网站提供了多种数据分析工具——增强子,非编码RNA转录信息等】中有提到,这个数据库收录了目前公共数据库当中敲减该转录因子后做的表达谱(芯片、二代测序)的数据,进而来反映这个转录因子变化后对于基因表达的影响。KnockTF不仅提供了感兴趣的TFs靶基因的全面基因表达信息,还收集了TFs上游通路信息以及下游靶基因的各种功能注释和分析结果,包括GSEA、GO富集、KEGG通路富集、层次聚类分析和差异表达分析。KnockTF进一步提供了有关TFs与启动子、超级增强子和靶基因典型增强子结合的详细信息。构建TF差异表达基因网络,对感兴趣的基因集进行网络分析,如子网络定位、拓扑分析和超几何富集。KnockTF将有助于阐明TF相关功能并挖掘潜在的生物学效应。
iRegNet3D将疾病相关的SNP位点与染色质互作联系起来,以此来探究SNP在疾病中的具体功能机制,对应文章的链接如下
Cistrome的目标是提供一个基因组顺式作用元件分析的综合性数据库,通过收集来自GEO,ENCODE等公共数据库中的chip_seq, DNase_seq, ATAC_seq 原始数据,采用统一的分析方法,用bwa比对参考基因组,然后采用macs2进行peak calling, 将分析的结果加以整合,做成了在线数据库,整个数据库的构建过程和功能模块示意如下
关于基因表达调控方面从 DNA-RNA 的过程当中主要是通过转录调控来影响基因的表达的。关于转录调控我们在之前的推送当中介绍过相关的内容,具体可见:[[转录因子调控]]。一般对于转录因子靶基因预测主要是通过 [[chip-seq是个什么东东]] 来进行分析的。但是通过 chip-seq 我们只知道每一个转录因子具体结合的的基因组位置是什么地方。但是对于是否具有转录调控关系。往往需要结合的基因表现出表达变化才能算是影响调控。所以今天就介绍一个综合 chip-seq,RNA-seq 综合性预测转录调控网络的数据库:GRAND: https://grand.networkmedicine.org/ 。
chipBase收集来自GEO,ENCODE数据库中的chip_seq数据,通过对这些原始数据进行分析,致力于构建各种转录因子与非编码RNA, 蛋白编码基因之间的调控网络,网址如下
结果主要分三个部分:Motifs,Tracks,Transcription Factors
1写在前面 本期我们先做个名词解释吧:👇 转录因子(Transcription factor, TF)是指能够结合在某个基因上游特异DNA序列上的蛋白质,这些蛋白质能调控其基因的转录。😘 📷 ----
我们前面说过,科研论文的三大元素——疾病、表型和分子,从差异到表型,这是科研最基本的要素,属于现象差异,是什么或者怎么样的问题,但没有回答为什么的问题,用学术语言来说,就是机制是什么。
UCSC(University of California Santa Cruz)作为生物领域里常用的数据库之一,整合了各大数据库的基因注释、基因表达、调控、变异等等各种基因组数据信息,不仅可以可视化浏览和数据挖掘,还能下载用于生信分析的fasta、GTF或BED文件和比较作图,听到这里,研究转录调控并且手里有感兴趣基因的老师是不是想问:这个数据库能找到可能调控我的目标基因的转录因子吗?可否来个“栗子”尝一尝?下面就以DUSP2为例,让小编带大家体验一下查找过程~
转录因子(Transcription Factors,TFs),是指能够以特定序列与基因专一性结合,从而保证目的基因以特定的强度在特定的时间与空间表达的蛋白质分子。转录因子通过识别特定的DNA序列来控制染色质和转录,以形成指导基因组表达的复杂系统。许多转录因子充当着主调节因子和选择基因的角色,控制着细胞类型的决定、发育模式和特定途径控制(如免疫反应)的过程。
今天我们讲解JASPAR 数据库(http://jaspar.genereg.net/)的使用!
英文标题: ChIP-Atlas: a data-mining suite powered by full integration of public ChIP-seq data
于数据分析而言,实战操作是最佳的学习方式。在自己没有测序数据的情况下,可以从公共数据库中寻找我们需要的数据集。最为广泛使用的公共数据库包括GEO, TCGA, Encode等等,这些数据库称得上包罗万象,囊括了各种组学的数据。在没有实际数据集的情况下,都可以上这些数据库来找一找。
今天和大家分享的是2020年3月发表在Int. J. Mol. Sci.(IF:4.556)上的一篇文章,“Transcriptomic and Network Analysis Identififies Shared and Unique Pathways across Dementia Spectrum Disorders”,作者使用AD,VaD和FTD患者额叶皮层的转录组数据,通过网络、通路和转录因子分析确定痴呆症相关基因、通路,以及三种痴呆症之间的异同。
TiED是一个人类增强子数据库,对10种不同组织中的增强子表进行定量和分析,鉴定了增强子的组织特异性,网址如下
前两天我们介绍了两个和融合基因有关的数据库,其中涉及到融合基因的查找和功能预测。对于融合基因的功能的话,FusionGDB数据库主要是来分析发生融合基因之后,对于其本身功能的变化,但是对于融合基因的调控,这个数据库就没有多大的注释,所以就有了
通过输入基因名来预测基因的功能。我们可以在多个数据库当中来预测基因的功能,其中包括这个基因的GO和通路分析当中的预测,也可以在转录因子调控和蛋白相互作用当中预测。这个预测的数据库就包括我们之前介绍的ChEA转录调控数据库[数据库推荐]多基因转录因子调控网络预测。GeneShot不只是利用数据库预测基因功能,同时也可以根据之前提到的五个数据库的结果来进行相似性比对,使得结果更加的准确。
科研过程中我们经常会使用Ensembl(http://asia.ensembl.org/index.html) 网站来获取物种的参考基因组,其中BioMart工具可以获取物种的基因注释信息,以及跨数据库的ID匹配和注释等。
mRNA可以翻译成各种功能的蛋白,其中有一类研究调控蛋白研究的非常火热,即转录因子transcription factor, 简称TF,TF参与调控转录起始过程,是研究转录调控必不可少的一环。miRNA可以与mRNA结合,发挥转录后调控功能, 二者都是生物体内调控网络中的重要组成部分。
我们使用的很多数据库,其实数据库里面的所有内容都是分析好的。我们在使用数据库的时候,其实就是在所有的结果里面去寻找我们想要的数据结果。类似于一个检索的功能。而这些分析好的数据,很多网站也都提供了下载的功能,通过下载的功能,我们就可以得到和这个数据库有关的结果结果。例如,我们在之前介绍的多基因转录因子富集的数据库当中([数据库推荐]多基因转录因子调控网络预测),这个网站就提供了数据下载的功能。
R包ggseqlogo 绘制seq logo图和Seq logo 在线绘制工具—Weblogo介绍了如何用R脚本和在线工具绘制seq logo图,用于展现转录因子或修饰酶等结合序列的偏好性。
之前我们介绍过关于[[ENCODE-转录调控必知数据库]]这个数据库。目前这个数据库更新到了V 5.0的版本。基本界面也发生了变化。所以这里就重新来介绍一下关于ENCODE: https://www.encodeproject.org/ 。
之前有小伙伴提问说,老板只给了一个基因让在胃癌当中研究。组内的测序数据也不让用,想要往下做一些和这个基因有关的基础实验,这个该怎么弄呢?
转录因子(Transcription Factors, TFs)指能够以序列特异性方式结合DNA并且调节转录的蛋白质。转录因子通过识别特定的DNA序列来控制染色质和转录,以形成指导基因组表达的复杂系统。尽管众多科学家对理解转录因子如何控制基因表达有着浓厚的兴趣,精准定位转录因子在基因组上的特异性结合位点,以及转录因子结合后最终如何参与转录调节仍然具有挑战性。
之前我们在介绍很多转录调控相关的数据库的时候,都会提到这些数据库包含了ENCODE数据库。那么ENCODE数据库是什么样的数据库呢?
在升级了pySCENIC后,发现转录因子数据库更新了。因此本文基于更新后的转录因子数据库,再次记录了从软件部署到pySCENIC的运行,最后进行可视化的详细笔记,希望对大家有所帮助,少走弯路。
在真核生物中,基因的编码序列在DNA链上是不连续的,被非编码序列隔开。这些基因,只有在转录因子结合到其特定的DNA序列上后,基因才开始表达。那么,我们要了解的是,什么是转录因子?什么又是转录因子结合的的特定的DNA序列(转录因子结合位点)?
领取专属 10元无门槛券
手把手带您无忧上云