lncRNA在基因表达调控中发挥重要作用,研究lncRNA调控的靶基因,有两种研究策略,一种是通过传统的实验手段分析lncRNA结合的蛋白质,从而确定lncRNA与蛋白编码基因的相互作用,常用的手段有以下几种 , 然后检测处理前后差异表达的基因,将差异表达的基因作为该lncRNA的靶基因, 通过芯片或者高通量测序都可以。 LncRNA2Target数据库收集整理了已经发表的lncRNA靶基因数据,最新版本为v2.0, 网址如下 http://123.59.132.21/lncrna2target/index.jsp 涵盖了人和小鼠中的 该数据库提供了下载功能,分别提供了传统实验和高通量两种手段分析的lncRNA靶基因文件,对应以下 两个文件 lncRNA_target_from_low_throughput_experiments.xlsx 通过该数据库,不仅可以查询lncRNA的靶基因信息,还学到了研究lncRNA靶基因的思路。 ·end· —如果喜欢,快分享给你的朋友们吧— 扫描关注微信号,更多精彩内容等着你!
大家好,又见面了,我是你们的朋友全栈君。 前两篇介绍了4种靶基因预测软件的下载与安装,以及数据的准备过程。本篇将正式开始进行靶基因的预测, 并对4种个软件的结果进行整理,最终得到4软件结果的交集。 靶基因预测 1、miRanda miranda file1 file2 [options..] miranda的使用需要准备两个文件,file1是miRNA序列的fasta文件,file2是mRNA序列的 miranda test.txt total_reverse_CDS201703.txt -out out.txt grep '>>' out.txt > miranda_result.txt 第一条命令是进行靶基因预测 结果整理 miranda结果 targetscan结果 RNA22结果 PITA结果 以上是4种软件靶基因预测结果, miRNA和靶mRNA名称在前两列中, 并且以制表符tab分隔, 我希望从文件中提取前两列的信息 从结果可以看到,4种软件的交集结果有8763条,意味着测试的miRNA在总转录本中有8763条潜在的靶位点,记住是靶位点,不是靶基因,因为一个基因可能在多个miRNA中有靶位点.
领8888元新春采购礼包,抢爆款2核2G云服务器95元/年起,个人开发者加享折上折
写在前面 对于miRNA靶基因的预测而言,目前有很多数据库都可以做。这些数据库的区别基本上在于纳入的数据量以及预测的算法不同。预测的结果总是有一些不同的,所以也就导致各个数据库的结果可能不是很一样。 我们在做miRNA调控基因预测的时候,经常需要寻找很多个数据库来预测,进而取交集来说明结果的稳定性。 数据类型输入 这个数据库提供了多种数据输入的方式,可以满足我们对于miRNA靶基因预测的各种需求。 1.输入相关想要预测的ID来获得miRNA调控信息。 这里输入的ID包括:miRNA、基因、lncRNA、circRNA、小分子物质、转录因子、表观遗传调控因子、假基因。 ? 2.提供基因的表达数据,从表达矩阵开始到差异表达再到miRNA调控网络一起做完。 3.提供miRNA的q-PCR的结果,分析差异表达的miRNA顺带的预测其靶基因。
miRWalk2.0数据库的新特性: 结果归纳总结了13种不同的miRNA-mRNA预测数据库的信息 根据不同的miRNA结合位点:启动子,CDS,5'和3'-UTR,线粒体基因组提供miRNA-mRNA 预测 可以根据“自定义数据集”功能,以下载自定义目标列表 提供经过实验验证的miRNA-mRNA相互作用 提供外部数据库链接以收集更多信息和注释数据 miRWalk2.0数据库操作演示 (1)通过mRNA 基因名预测miRNA-mRNA相互作用关系: 在mRNA的情况下,用户可以使用以下ID来输入:基因symbol(例如GAS2),EntrezID(例如10608),EnsemblID(例如ENSG00000148935 目前支持靶位点在基因的5UTR,CDS,3UTR 三种数据,但是一般miRNA的靶位点在3UTR区域,所以下载3UTR即可。 ? 点击3UTR,我们看到有两个3UTR可供下载,根据标题可以看出第一个为来自miRwalk数据库本身算法的预测结果,第二个为来自其他12个miRNA-mRNA相互作用预测数据库的结果。 ?
不久前,为小伙伴们推送了神器LnCeVar(详情点击:LnCeVar:高逼格的lncRNA相关ceRNA分析神器),今天,再来一个LncRNA研究的数据库! ? 虽然lncRNA与疾病的关联已受到广泛关注,但目前缺乏数据库预测lncRNA介导的靶基因调控机制、关键下游靶基因以及与疾病相关的lncRNA的重要生物学功能。那么,今天的神器就是为了解决这些问题的! 首先显示的是基于TCGA/GEO数据集的靶基因和lncRNA差异表达情况表。 ? 各种肿瘤中靶基因(CTNNB1)差异表达的箱线图。 ? 最后是lncRNA-靶基因表达关系的散点图,在热图中单击具体癌症类型后即可显示。 ? 三、浏览器检索功能 点击“Browser”,在左上方选择具体疾病,药物,lncRNA,靶基因和调控机制。 ? 网络的可视化更加直观地显示疾病中lncRNA-taget的调控网,包括lncRNA,调控靶基因的机制,靶基因,其影响的生物学功能和相关药物。 ? 当然也可以以水平或垂直的网络图进行展示。 ?
通常在分析peak区域对应的靶基因时,会选取转录起始位点TSS上下游一定长度的区域作为候选的靶基因范围,本文介绍下如何利用bedtools来对peak与TSS区域的overlap情况进行分析,从而得到靶基因 得到物种对应的TSS位点信息 以hg38为例,通过UCSC的FTP服务可以得到物种对应的refFlat文件,链接如下 http://hgdownload.soe.ucsc.edu/goldenPath/ 在原始文件中是没有第一行的标题的,我手动添加的标题是为了方便描述每列的含义,从该文件中可以得到TSS位点信息。 2. 运行bedtools window bedtools windows和intersect的功能类似,都是用于求两个区间A和B的交集,只不过window会在A区间的上下游加上一个可以自定义的长度之后,再与 TSS上下游的区间,快速得到peak对应的靶基因。
miRDB通过MirTarget这个软件预测了人,小鼠等多个物种的miRNA靶基因信息,并将其整理成了数据库,网址如下 http://www.mirdb.org/ 该数据库中涵盖的物种如下 huaman mouse rat dog chicken 每个物种相关的miRNA和靶基因数量统计如下 ? 除了提供软件预测的靶基因结果外,该数据库还做了一个文献整理的工作,将报导了miRNA前体或者成熟miRNA功能的相关文献收集整理,汇总形成了一个miRNA功能数据库,称之为FuncMir, 该数据库包含了人和小鼠这两个物种中的 该数据库提供了下载功能,可以方便的下载数据库中的所有信息,示意如下 ? miRDB本质上是一个软件预测的miRNA靶基因数据库,如果只看这一个数据库,结果的假阳性率会比较高,最好的做法是结合多个软件预测或者数据库的结果,类似miRWalk数据库的思路,来弥补单一软件算法的不足之处
前面小编也给大家介绍过miRNA与靶基因结合的几种方式,具体可以参考前面的文章 ☞miRNA 靶向预测软件targetscan ☞R批量预测miRNA和靶基因之间的调控关系-TargetScan篇 关于这个数据库的详细视频介绍可以参考 ☞miRNA数据库简介及miRNA靶基因批量预测 1.2 找到感兴趣的基因,点击Sites in UTR 1.3 截图保存,miRNA-target序列比对信息 2.miRNA-lnRNA 我们使用ENCORI这个数据库来获取miRNA-lncRNA之间的序列比对图。 ENCORI这个数据库我们前面已经做过了很详细的介绍 ☞RNA相互作用神器——ENCORI ☞R批量预测miRNA和靶基因之间的调控关系-ENCORI篇 ☞R下载合并ENCORI RBP(RNA binding protein)靶基因数据 ☞miRNA数据库简介及miRNA靶基因批量预测 2.1 打开ENCORI数据库,选择miRNA-lncRNA 2.2 输入感兴趣的miRNA的名字,点击搜索。
接下来,我们通过顺式和反式调控网络预测了这些lncRNAs调控的下游靶基因,发现124个候选基因与这些lncRNAs相关。 结论:本研究首次利用DNMT3A R878H条件性敲入小鼠模型预测AML中受DNMT3A突变调控的特异性lncRNA。有6个候选基因与DNMT3A突变相关,预后差。 ≥2 ORF<300bp Pfam,CPC ,CNCI去除具有蛋白编码能力的转录本 转录本类型:i u x 4.lncRNA靶基因预测 选择距离小于10kb的不含lncRNA的基因作为顺式调控的靶基因。 分析一文就够(单机版+R语言版) 根据分组信息做差异分析- 这个一文不够的 差异分析得到的结果注释一文就够 接着去预测差异表达的lncRNA的靶基因。 通过差异lncRNA预测调控的靶基因,然后分析差异表达的靶基因,进而发现与预后相关基因。
根据其与功能基因的相对位置,可以分为天然反义转录本(NAT),基因间区lncRNA和内含子lncRNA。 ? lncRNA 的研究目前来看已经逐渐从一个极火的状态逐渐有归于平静的趋势。 目前已知的功能主要有如下几个: 能被加工产生小分子RNA,如miRNA 对组蛋白进行修饰,介导染色质重塑调节基因表达 作为miRNAs诱饵,抑制miRNA 对其靶基因的调控 作为mRNA的天然反义转录本 TESTCODE score 和hexamer usage bias来判断转录本编码能力 http://rna-cpat.sourceforge.net/ Pfam 蛋白结构域注释 通过和已有的蛋白数据库进行比对 http://rnaplonc.cp.utfpr.edu.br/about.php 靶基因预测 基于距离:根据基因组具体情况,lncRNA附近5k(50k)以内的基因可以考虑做为lncRNA 的靶基因。 lncRNA和靶基因在序列上可能存在不完全的序列相似性,根据最小自由能原理,计算标准化结合自由能(normalized binding free energy,ndG)来预测靶基因。
2.2 lncRNA差异表达谱 首先,从TCGA数据库下载PDAC 基因表达谱的raw count(level3)数据,我们通过基于来自GENCODE数据库的注释文件将表达谱中的相关特征注释为lncRNA 2.4WGCNA与目标预测的加权共表达网络构造 我们使用加权基因共表达网络分析(WGCNA)分析了整合的网络,其可以使得能够描述相关模式基因表达谱。 我们还通过mRNA和lncRNA网络预测了5个lncRNA的靶基因。 2.5功能富集分析 首先使用加权共表达网络(WGCNA)挑选lncRNA的靶基因。 靶基因的Go富集分析的P值设定为P<0.05,富集分数> 1。使用Cytoscape软件显示符合统计学标准的的富集结果。 2.6用GEO数据验证差异表达的lncRNA 为了验证来自TCGA数据库的差异表达的lncRNA,我们尝试从GEO数据库筛选PDCA的mRNA数据集。
前面我们分享了:microRNAs靶基因数据库哪家强,提到了综合了12个网页工具的miRWalk,以及整合了7个工具的miRSystem,但是最后我们仍然是推荐R包multiMiR作为提取miRNA的预测靶基因结果的解决方案 miRNA的靶基因重合度还挺高的! 再看看它与miRSystem网页工具结果的差异 进入 http://mirsystem.cgm.ntu.edu.tw/ ,粘贴我们的 值得注意的是,该工具顺便对靶基因进行了生物学功能数据库的注释 ? 可以看到预测的靶基因是836个,有趣的是我们明明输入的是小鼠的miRNA,理论上靶基因应该是小鼠的,但是这个网页工具似乎是把人和鼠的基因模糊处理了. ? (因为不是这个领域,所以我并不清楚,不同数据库结果的30%左右的一致性是好还是坏) 既然是预测,就不可能多个工具完全一致,所以目前主流的做法是,选择5个以上数据库支持的靶基因作为该miRNA的最后列表。
我们发现,上文鉴定的5个有预后价值的焦亡基因许多与免疫细胞、TMB、MSI相关。另外,NLRP7、NLRP2、NOD1和CASP6的表达与药物靶点呈正相关。 作者使用miRTarBase和TarBase V.8数据库预测与焦亡基因结合的miRNA 靶标。 基于鉴定的miRNA,再使用StarBase和LncBase Predicted v.2数据库预测与 miRNA相互作用的lncRNA。 随后,作者探索了miR-335-5p的上游lncRNA靶点,构建了miRNA-lncRNA轴。 有三个lncRNA被确定为靶点,其中lncRNA FTX的下调和lncRNA KCNQ1OT1的上调显著影响LUAD。然而,只有lncRNA KCNQ1OT1可以降低LUAD患者的生存概率(图7H)。
ORF ,去除ORF大于300nt的转录本 区分mRNA和lncRNA :CNCI,CPC ,CPAT Pfam Scan(v1.3) lncRNA靶基因预测与注释 筛选候选lncRNA上下游100kb 的编码基因 RNAplex 通过预测反义lncRNA和mRNA之间的互补结合来寻找lncRNA靶基因。 文章进行了如下所示的两个推断: ? 通过顺式功能预测确定了20116个lncRNAs的11398个靶基因,通过互补结合预测确定了479个lncRNAs的365个靶基因。 3.肌内前体脂肪细胞分化过程中差异表达基因的研究 转录组的标准分析,比较容易复现,基本上看我六年前的表达芯片的公共数据库挖掘系列推文即可; 解读GEO数据存放规律及下载,一文就够 解读SRA数据库规律一文就够 (今晚八点) 其他: 从GEO数据库下载得到表达矩阵 一文就够 3种缺失值情况需要区别对待 这个文章是使用WGCNA来预测lncRNA的靶基因。
其实ENCORI数据库除了提供,miRNA和mRNA之间的调控关系以外,也提供miRNA和lcnRNA,miRNA和circRNA之间的调控关系。 ,每一个文件里面包含一个miRNA和靶基因之间的调控关系。 就像R批量预测miRNA和靶基因之间的调控关系-ENCORI篇里面使用的mRNA_miRNA_interaction.txt和lncRNA_miRNA_interaction.txt。 和靶基因的调控关系了,在一个文件里面,就是下面圈出来的两个文件了。 参考文献 RNA相互作用神器——ENCORI R批量预测miRNA和靶基因之间的调控关系-ENCORI篇
在生物信息学中,对于基因功能的挖掘,通常的做法就是利用GO和KEGG等功能数据库,但是这些数据库中都是蛋白编码基因的功能,为了利用这些数据库中的信息,我们需要在lncRNA与mRNA之间建立起联系,常见的思路有以下几种 通过lncRNA和mRNA之间的相互作用 很多文献和数据库中都有报道的lncRNA与mRNA之间相互作用,也可以通过软件来预测二者之间的结合,通过lncRNA的靶标mRNA, 来研究lncRNA的功能 通过lncRNA与mRNA的共表达 通常认为共表达基因集参与同一通路,或者受到同样的调控,具有相似的生物学功能,利用表达谱数据寻找与lncRNA共表达的mRNA,从而来研究lncRNA的功能。 Co-LncRNA通过分析查找与lncRNA共表达的mRNA,构建lncRNA与mRNA之间的共表达网络,并通过共表达的mRNA对应的GO和KEGG来研究lncRNA的功能,该数据库的网址如下 http 该数据库中的数据是免费下载的,通过该数据库,我们不仅可以查找已有的lncRNA与mRNA的共表达分析结果,还可以对自己的数据进行共表达分析。
对疾病代谢途径的识别、药物相关途径的分析和患者生存预测。在高通量转录组学、基因组学和代谢组学、计算代谢网络分析和分子生物学方法方面,采用独特的生物信息学方法组合。下面是他们开发的6个工具: ? 此外,SEanalysis是一个可定制的基因组浏览器,该服务器可在http://licpathway.net/SEanalysis.免费获得 TRlnc 人类转录调控的综合数据库lncRNA(TRlnc 此外,TRlnc提供了lncRNA转录调控区(启动子、增强子/超级增强子和染色质可及区)的详细(Epi)遗传信息,包括普通SNP、风险SNP、eQTL、连锁不平衡SNP、由模体预测的TF、由CHIP-SEQ KnockTF TF敲除/敲除的全面的人类基因表达谱数据库(KnockTF),该数据库提供了与TF敲除/敲除相关的人类基因表达谱数据集的大量可用资源,并以组织/细胞类型特定的方式注释TF及其目标基因。 KnockTF进一步提供了与靶基因的启动子、超级增强子和典型增强子结合的TF的详细信息。此外,还构建了TF差异表达基因网络,并用于对感兴趣的基因集进行网络分析,如子网络定位、拓扑分析和超几何富集。
弹性灵活、性能卓越、自助化的计算资源管理服务,实现弹性使用云上高性能计算资源的需求。
扫码关注腾讯云开发者
领取腾讯云代金券