我们在进行研究一个基因之前都要了解这个基因主要是功能是什么,或者它可能的功能是什么。如果要了解一个基因目前的功能的话。可以通过genecards来查找的。关于这个数据库,可以查看我们这两个帖子:genecards介绍一;genecards介绍二
Oncomine是肿瘤领域经典的样本数据库,可以对表达数据进行简单的处理分析,计算基因表达特征,以及聚类基因集模块,并自动从数据中进行生物学功能分析。
关于PCAWG在线数据库的介绍,之前我们介绍了ICGC和UCSC XENA这两个数据库。其中ICGC主要是可以用来分析突变在泛癌当中的结果。而UCSC XENA则是一个综合性的数据库,可以用来分析几乎所有的涉及到TCGA的数据。由于分析的内容比较多,所以也就导致操作会相对来说复杂很多。但假如我只是想看一个基因表达情况的话,那使用XENA就稍微有一些大材小用了。今天介绍的这个数据库就是专门用来查询基因表达情况的数据库。这个数据库就是:Expression Atlas (https://www.ebi.ac.uk/gxa/home)。
之前我们在介绍GEPIA的时候,说这个数据库只能用于TCGA表达数据的一些分析。但是对于TCGA数据而言,里面包括相同样本的表达、突变、拷贝数、甲基化以及临床信息等数据,所以我们其实可以利用TCGA数据库来进行多组学之间的交叉分析。今天我们就介绍一个TCGA多组学分析的经典数据库:
之前有小伙伴提问说,老板只给了一个基因让在胃癌当中研究。组内的测序数据也不让用,想要往下做一些和这个基因有关的基础实验,这个该怎么弄呢?
在研究一个基因之前,首先还是要了解这个基因的基础表达情况的。在之前的一些推送当中,我们介绍过一些关于基因表达情况查询的数据库
在MethHC数据库中,提供了18种癌症相关的DNA甲基化,microRNA表达谱和基因表达谱的数据,这里的数据来源于TCGA数据库。同时采用线性回归的方法计算甲基化和表达谱数据之间的关联。
原因:随着技术平台的不断发展,许多已发布的实验数据集可以被不同统计方法整合,使得可以同时使用各种方法来解决同一研究问题。但是为了从所有这些选择中获得最大的收益,我们需要以公正的方式整合它们的结果,例如不同实验的差异分析结果。优先排序的基因列表是基因组数据分析应用程序中常见的结果表示方法。因此,秩聚合方法可以成为这一类问题的有用且通用的解决方案。
KnockTF(http://www.licpathway.net/KnockTF/search.php)数据库就是基于这个目的构建的数据库。关于这个数据库,我在很久前的文章【这个网站提供了多种数据分析工具——增强子,非编码RNA转录信息等】中有提到,这个数据库收录了目前公共数据库当中敲减该转录因子后做的表达谱(芯片、二代测序)的数据,进而来反映这个转录因子变化后对于基因表达的影响。KnockTF不仅提供了感兴趣的TFs靶基因的全面基因表达信息,还收集了TFs上游通路信息以及下游靶基因的各种功能注释和分析结果,包括GSEA、GO富集、KEGG通路富集、层次聚类分析和差异表达分析。KnockTF进一步提供了有关TFs与启动子、超级增强子和靶基因典型增强子结合的详细信息。构建TF差异表达基因网络,对感兴趣的基因集进行网络分析,如子网络定位、拓扑分析和超几何富集。KnockTF将有助于阐明TF相关功能并挖掘潜在的生物学效应。
前几天一个小伙伴问:怎么查看一个基因和某一个通路之间的相关性。这里就简单的提供一个可能的解决办法,供有相同需求的小伙伴参考。
前段时间,我们介绍了两篇在OncoImmunology发表的简单的生信+实验的文章。最近又发现一个杂志(Genomics, IF = 6.205)也发表一些生信相关的文章。里面有些文章简单的令人发指。今天就来介绍一个基本上全部都是用在线数据库做出数据的文章。
我们获得的差异基因【学习:一文就会TCGA数据库基因表达差异分析,GEO数据库表达数据的提取以及limma包进行差异分析,TCGA数据库:GDCRNATools包下载数据、处理数据以及差异分析】,下游除了富集分析【学习:clusterProfiler包进行KEGG,GO,GSEA富集分析;FunRich数据库:一个主要用于基因和蛋白质的功能富集以及相互作用网络分析的独立的软件工具】等以外,如果我们想找到参与调控这些差异基因的转录因子,作为研究的上游机制,是一个思路。而很多转录因子预测的数据库是基于转录因子的Chip-seq的数据来进行构建的,这样的结果能说明某一个转录因子结合某一段序列,但是结合并不一定说明可能影响这个基因的表达,所以最好做一个这个转录因子导入/导出的表达数据来说明对于基因表达的影响。
我们在研究基因对于某一个疾病预后是否有影响的时候。最直接的就是单纯的做这个基因对所有患者的预后分析。如果预后有意义,就说明这个基因影响疾病的预后。如果没有意义就说明这个基因不重要的嘛?当然也不是的。疾病的发展是一个多基因多因素相互影响的结果。如果这个基因对于所有患者预后没意义的话,有可能这个基因在某些药物治疗下可能就影响预后了,或者说这个基因和另外一个基因存在相互作用关系。在另外一个基因激活的情况话,这个基因就影响预后了。因此,我们在发现一个基因对于预后没有意义的时候,也不能说这个基因没意义了,可以继续尝试做一些进一步交互性的分析。
在研究一个lncRNA之前,我们都要先去查看这个lncRNA可能的相关功能,比如要查看这个lncRNA的表达、查看其相互作用的miRNA或者需要去查看调控这个lncRNA的转录因子。对于不同的需求需要使用不同的数据库,今天就来介绍一个一站式查询lncRNA相关功能的数据库: AnnoLnc2 (http://annolnc.gao-lab.org/)
GEPIA是北京大学张泽民教授实验室的唐泽方等人通过 R 、Perl等语言对数据进行处理、可视化而设计的癌症大数据分析网站 。分析内容包括肿瘤/正常差异表达谱分析、表达分布、病理分期、生存分析,相似基因,基因表达相关性和降维分析等。界面友好,操作简答,通过点击GEPIA 就可以进行综合全面的分析。
传统化疗是对抗癌症的常见方法,但它会攻击全身,造成不必要的副作用,如脱发,恶心和疲劳。 靶向治疗选择性地杀死癌细胞而不影响健康组织。靶向药物开发将成为治疗癌症的重要手段。 肿瘤的生物信息学数据库对肿瘤基础研究的发展、临床治疗水平提供具有重要作用。
TCGA数据挖掘真的是绵绵不绝,这里就不再赘述了,从基因集到ceRNA,到可变剪切,肿瘤免疫, 再到现在的m6A和自噬基因, 马上缺氧,代谢应该是也要出来了,每次一个策略就是33篇数据挖掘文章。真的是很不走心,比如最近有学徒一直咨询我的m6A,我发现仅仅是ccRCC的就有4篇,有一个很简陋的文章,完全是6个网页工具图表拼凑的,再加上一点点多组学。
[[单细胞测序]] 作为一个特别特别已经火上天的测序技术。之前所有在 bulk RNA-seq 上面分析的内容。基本上可以在 scRNA-seq 上面重新来一遍。对于一些在线的数据库也是这样的。我们在研究肿瘤的时候,之前可能只是基于单纯的 RNA-seq 来看一下基因的表达,例如 [[GEPIA2-TCGA表达分析数据库]],但是 scRNA-seq 的增多之后,就会有了 [[CancerSCEM-肿瘤单细胞基因表达图谱]] 这样在单细胞水平看基因的表达情况。 同样在病毒感染方面,之前也有预测病毒感觉的受体在不同组织当中的表达情况的数据库,那么单细胞数据多了之后也就有了 VThunter: https://db.cngb.org/VThunter/VThunter/index 。这个基于单细胞测序观察不同物种当中病毒受体表达情况的数据库。
肿瘤细胞系在肿瘤发生机制的阐明,药物敏感性的检测,肿瘤标志物的发现等研究内容中发挥重要的作用。肿瘤细胞系的数据显得尤为重要。
但是,一般的差异分析(GO和Pathway)往往侧重于比较两组间的基因表达差异,集中关注少数几个显著上调或下调的基因,这容易遗漏部分差异表达不显著却有重要生物学意义的基因,忽略一些基因的生物特性、基因调控网络之间的关系及基因功能和意义等有价值的信息。而GSEA不需要指定明确的差异基因阈值,算法会根据实际数据的整体趋势, 为研究者们提供了一种合理地解决目前芯片分析瓶颈问题的方法,即使在没有先验经验存在的情况下也能在表达谱整体层次上对数条基因进行分析,从而从数理统计上把表达谱芯片数据与生物学意义很好地衔接起来,使得研究者们能够更轻松、更合理地解读芯片结果。
作者直接从生存分析的角度入手,利用km plotter数据库分析NDRG基因家族基因在胃癌中表达差异与存活率的关系,并分析其与HER2表达、肿瘤分期的相关性。
HCMDB(人类癌症转移数据库)是一个集成数据库,可以存储和分析癌症转移的大规模表达数据。该数据库从GEO和TCGA中收集了124个先前公开的转录组数据集,用于比较转录组以检查转移相关基因的表达,在目前版本的HCMDB中,它包含来自四百多个实验的29种癌症类型。为了注释那些可能与转移相关的基因,数据库基于7,000多种已发表的文献,总共筛选了2183个基因(1901个蛋白质编码基因,24个长非编码RNA和203个miRNA)。
我们人体的基因表达情况是会随着年龄的变化发生变化的。通过了解正常人当中那些基因随着年龄会发生变化,对于研究和年龄有关的疾病也有种重要的作用。今天就来介绍一个年龄有关基因表达数据库:ADEIP (http://gb.whu.edu.cn/ADEIP/)
重要的事情说在前面:这个网站有时候检索不了,这个时候最好科学上网。请结合自身合理选择。
随着二代测序和基因芯片的出现,对于我们可以一次性获得一个样本所有的基因表达情况。虽然我们没办法知道lncRNA的功能预测。但是我们可以通过测序数据进行统计分析得到和这个lncRNA相关的编码基因有哪些。进而对这些相关的编码基因进行富集分析预测。就可以间接的了解这个lncRNA是什么功能了。
昨天我们介绍了这个数据库的其中一部分功能 KnockTF:转录因子敲除数据库(一),今天把这个数据库的其它功能介绍完。
最近小编在看单基因的分析文章,这些文章共通点多是利用公共数据库进行单基因数据挖掘。小编认为这个对于想发表文章,但是又苦无很好的生信基础的小伙伴是个很好的思路。同时也揭示出一个简单的却容易被忽视的真理-肿瘤数据库掌握得好,分析绘图“一锅烩”,徒手挖文章就不再是遥不可及的梦!
miRactDB为癌症和基因组学界提供了独特的资源,可以在正常和癌症患者不同样品数据中分别进行筛选,确定优先级并合理化其miRNA与基因相互作用的候选对象。而且可能存在一小部分但至关重要的miRNA,可深刻影响各种癌症的标志性过程。相信这个数据库会给正在进行miRNA与基因作用研究和生物信息分析研究者带来巨大的帮助。
KnockTF(http://www.licpathway.net/KnockTF/search.php)数据库就是基于这个目的构建的数据库。这个数据库收录了目前公共数据库当中敲减该转录因子后做的表达谱(芯片、二代测序)的数据,进而来反映这个转录因子变化后对于基因表达的影响。
想研究肿瘤数据库,可不是只有TCGA、GEO能用。小编今天帮大家总结了一些没那么广为人知,但好用且仍在更新的癌症基因数据库。
对于miRNA靶基因的预测而言,目前有很多数据库都可以做。这些数据库的区别基本上在于纳入的数据量以及预测的算法不同。预测的结果总是有一些不同的,所以也就导致各个数据库的结果可能不是很一样。我们在做miRNA调控基因预测的时候,经常需要寻找很多个数据库来预测,进而取交集来说明结果的稳定性。今天就给大家介绍一个收集了多个数据库来预测miRNA调控的数据库:miRNANet (https://www.mirnet.ca/miRNet/home.xhtml)。
百味科研芝士的小伙伴们大家好啊!好久不见甚是想念,点赞在看养成习惯。我是你们的老朋友小木舟~今天给大家分享来自《Epigenomics》,IF= 4.173,国人占比:4.80% 的一篇文章。文章的题目是:新型mRNA-miRNA-lncRNA竞争内源性RNA网络的鉴定与乳腺癌的预后相关。简单的说就是乳腺癌的ceRNA网络构建。
抑癌基因tumor suppressor gene,简称TSG,是一类存在于正常细胞内,可以抑制细胞生长并且具有潜在抑癌作用的基因。TSGene是一个从文献中收集整理的抑癌基因数据库,文章发表在Nucleic Acids Research,链接如下
对于RNA-seq的数据,之前我们的分析方法只是局限于单个基因之间的整合分析,最多也就是做一下富集这样的聚类分析。前段时间随着肿瘤免疫的热度,也有人试着开始利用RNA-seq这样的数据来评价患者的免疫情况。
关于融合基因,之前我们已经介绍了多个相关的数据库。如果要研究融合基因的话,可以看一眼
OnGene是一个肿瘤基因的数据库,通过文献检索的方式获得了803个肿瘤基因,文章的链接如下
第43篇生信论文的分享。先不说论文思路,但是论文题目过于简单,其实可以点出与肿瘤免疫浸润表型相关。
我们在进行基因的蛋白表达检测的时候,通常的方法是进行western blot以及免疫组化进行检测的。对于这两个实验都是需要提前买抗体进行检测的,但是抗体又贵,如果一个基因检测的结果不好的话,那有可能就要浪费这个抗体了。所以今天就来介绍一个,在很多癌症当中做了很多基因的免疫组化的数据库: The Human Protein Atlas (https://www.proteinatlas.org/)
关于基因表达调控方面从 DNA-RNA 的过程当中主要是通过转录调控来影响基因的表达的。关于转录调控我们在之前的推送当中介绍过相关的内容,具体可见:[[转录因子调控]]。一般对于转录因子靶基因预测主要是通过 [[chip-seq是个什么东东]] 来进行分析的。但是通过 chip-seq 我们只知道每一个转录因子具体结合的的基因组位置是什么地方。但是对于是否具有转录调控关系。往往需要结合的基因表现出表达变化才能算是影响调控。所以今天就介绍一个综合 chip-seq,RNA-seq 综合性预测转录调控网络的数据库:GRAND: https://grand.networkmedicine.org/ 。
LncRNA一直是近些年来非编码RNA领域的研究热点,所以,许多各式各样的LncRNA数据库应运而生。今天,小编就来给大家介绍一个通过整合lncRNA在广泛的生物学条件下的表达谱来系统表征人lncRNA表达格局的数据库:LncExpDB(https://bigd.big.ac.cn/lncexpdb)。这是一个人类lncRNA的表达数据库,致力于提供lncRNA基因的全面表达概况,探索其表达特征和能力,鉴定具有潜在的重要功能特征的基因,并在各种生物学环境/条件下与蛋白质编码基因相互作用。
这个数据库整合了ENCODE;ReMap以及一些独立发表的CHIP-seq数据,同时还整合GTEx ;TCGA 以及ARCHS4内的RNA-seq数据内的转录因子共表达数据。另外还整合了Enrichr数据库内基因之间的转录因子共发生分析。利用以上数据库分析的结果,我们可以建立一个多基因转录因子调控网络。
之前在介绍一些关于生物学基本知识的时候,提到过[[SNP是什么东西?]]以及[[基因突变需要了解那些内容?]]。这类的变异都是通过改变基因序列来影响基因的功能。除了这样的变异。还有一类变化叫做表观遗传学 (epigenetics) 。简单来说表观遗传学主要就是通过不影响基因序列的改变来影响基因基因的表达。
生信论文36是单基因分析的生信论文,单纯生信数据库的数据分析,没有湿实验验证,但是可以发表在接近5分的期刊上,很多分析做得很棒,值得借鉴。我们对文章数据进行复现。
近日,由中国科学院北京基因组研究所(国家生物信息中心)国家基因组科学数据中心开发的人类长非编码RNA(long non-coding RNA, lncRNA)表达数据库正式上线。该研究成果以`LncExpDB: an expression database of human long non-coding RNAs`为题在国际学术期刊《核酸研究》(`Nucleic Acids Research`)在线发表。 `LncRNA`通过复杂多样的分子机制发挥重要调控功能,在多个生物学过程以及疾病发生发展中均发挥重要作用。目前,人类基因组中已鉴定出十万多个lncRNA基因,但有功能研究的仅有数千条,因此全面注释lncRNA功能是人类基因组研究的重要内容和巨大挑战。近年来,高通量测序技术的迅速发展促进了正常组织、疾病、胚胎发育、器官分化、病毒侵染、亚细胞区室等多种生物学场景的研究,积累了丰富的组学数据,尤其是转录组测序数据,为从多角度发现和研究lncRNA的生物学功能提供了重要的数据基础与研究思路。 LncExpDB数据库致力于提供多生物学场景的lncRNA表达谱,鉴定具有潜在功能的lncRNA,促进lncRNA的功能实验研究。在LncBook数据库构建的人类lncRNA数据集基础上,研究人员整合CHESS、RefLnc、FANTOM等10余个专业数据库鉴定的lncRNA,基于严格审编标准,获得全面的高质量人类lncRNA参考数据集,包含101,293个基因/33,1244个转录本。LncExpDB数据库进一步整合9种重要生物学场景(正常组织/细胞系、器官发育、植入前胚胎发育、细胞分化、亚细胞定位、外泌体、癌症细胞系、病毒侵染、昼夜节律)的1,977个样本的转录组数据,通过标准化的转录组数据分析流程,系统分析并鉴定每种生物学场景的特征基因(管家基因/组织特异性基因、差异表达基因、节律基因、动态表达基因、亚细胞区室富集基因)集合,共计25,191个特征lncRNA基因和28,443,865对相关的lncRNA-mRNA共表达关系。此外,LncExpDB鉴定了具有表达证据支持的92,016个lncRNA基因,评估了lncRNA的表达水平与表达潜力。
首先,ID4这个基因在正常的前列腺组织里面是高表达的,在前列腺癌症组织里面表达量会降低,而且是随着癌症进展而逐渐降低的,是一个非常标准的抑癌基因失活的例子。
小编为大家爆肝整理了近百个数据库!共分10大类。今天小编先为大家分享前5类。 在整理的过程中,小编发现一些虽然是以前经常被大家推荐使用的数据库,但却已不再维护了,早已不能正常使用了,这种数据库小编也已经贴心的帮大家过滤掉了。那就快来看看有没有你需要的吧!
经常有小伙伴跟我抱怨,没时间没精力去学代码,太复杂了。当然也有些小伙伴确实打起精神开始学,从网上搜了一大堆R语言资料,和生物信息学资料,甚至还买了本R语言实战的书,甚至还学起了python,准备大干一场。但是,有时候实在是心有余而力不足,一边要学实验技术,上课,读文献,甚至要在临床轮转,当初高涨的热情很快就被磨灭,然后就没有然后了。
之前我们介绍过一些用来预测基因在肿瘤当中表达情况的数据库。例如,GEPIA、UALCAN这些的。这些的数据库主要是通过输入目标基因,同时点击想要进行分析的模块就可以返回相关的结果。如果厌倦了点点点的话,那可以了解一下今天介绍的这个工具,这个工具可以通过对话框进行聊天就可以把分析做了的网站:DrBioRight(https://drbioright.org/landing/)。
驱动基因的识别是肿瘤基因组学研究中的一项重要内容,NCG是一个肿瘤驱动基因的数据库,目前最新版本为v6.0, 网址如下
领取专属 10元无门槛券
手把手带您无忧上云