对于大多数的数据库而言,API接口可以方便的从数据库中检索数据。kegg 数据库的API 链接如下:
kegg Genome 由organisms,selected viruses 和 Metagenomes 3个数据库构成。
KEGG数据库(http://www.kegg.jp/)也即京都基因和基因组百科全书(Kyoto Encyclopedia of Genes and Genomes),是系统分析基因功能、基因组信息的数据库,它整合了基因组学、生物化学以及系统功能组学的信息,有助于研究者把基因及表达信息作为一个整体网络进行研究。KEGG提供的整合代谢途径查询十分出色,包括碳水化合物、核苷酸、氨基酸等代谢及有机物的生物降解,不仅提供了所有可能的代谢途径,还对催化各步反应的酶进行了全面的注解,包含其氨基酸序列、到PDB数据库的链接等。
KEGG数据库是一个综合性的生物信息数据库,由日本京都大学生物信息学中心的Kanehisa实验室于1995年建立。它整合了基因组、化学和系统功能信息,旨在从分子水平上理解生物系统的高级功能和实用程序,特别是细胞、生物体和生态系统的功能。
在进行生物学实验或者生物信息的学习中,都会听说KEGG富集分析,而且该方法在高通量测序分析中已然成为数据分析中必不可少的一环。
在上周的文章KEGG数据库不会下载?了解下API!里,我介绍了基于KEGG API来获得所有基因的id,并通过wget遍历所有id来get基因的序列。对计算机比较了解或已经尝试过的朋友可能会意识到,虽然KEGG数据库整体并不是很大(原核生物大概5G),但是反复访问API地址耗时甚长!基于国内高校网速现状,全部下载可能需要长达数月甚至一年的时间!需要注意这里的耗时主要来源于反复访问KEGG API地址而不是下载数据本身,假如可以减少访问次数,那么就能大大缩短KEGG数据库下载时间。比较幸运的是,API指令中允许多个基因并行检索,如下所示:
KEGG是一个整合了基因组、化学和系统功能信息的数据库。把从已经完整测序的基因组中得到的基因目录与更高级别的细胞、物种和生态系统水平的系统功能关联起来是KEGG数据库的特色之一。与其他数据库相比,KEGG 的一个显著特点就是具有强大的图形功能,它利用图形而不是繁缛的文字来介绍众多的代谢途径以及各途径之间的关系,这样可以使研究者能够对其关注的代谢途径有直观全面的了解。
我们经常会使用KEGG数据库来研究基因的功能,而在KEGG 数据库中,直接存储分子功能的就是KEGG Orthology 数据库。
KEGG(Kyoto encyclopedia of genes and genomes, )(https://www.kegg.jp/)是系统分析基因功能、 基因组信息的数据库,它整合了基因组学、生物化学以及系统功能组学的信息,有助于研究者把基因及表达信息作为一个整体网络进行研究。
其实这样的KEGG数据库的12大代谢通路数据挖掘文章很多,其中一个佼佼者是复旦大学邵志敏团队三阴性乳腺癌的代谢组学文章,文献标题是:《Metabolic-Pathway-Based Subtyping of Triple- Negative Breast Cancer Reveals Potential Therapeutic Targets》,其数据挖掘仅仅是一个引子,后续仍然是有大量真实病人自己的代谢组数据做支撑。如下所示,可以看到在the tumor samples versus paired normal samples in the FUSCC cohort. 的差异分析里面,统计学显著(upregulated or downregulated (FDR < 0.05))的失调代谢通路,在 10 metabolic categories 分类展示 :
“大数据”、“组学”、“数据挖掘”是近几年来我们经常听到的词汇,科研工作中也经常用到二代测序,不管送哪家测序公司进行测序或数据分析,结题报告中都会看到一个标准的分析套路:功能富集分析。
kegg disease 数据库收录了已经报告的各种疾病的信息,每个记录用H Number 唯一标识, 比如H00004。
写此文档的缘由:在做GSEA分析时,由于研究的是非模式生物,从Broad Institue开发的MSigDB没有找到合适的预设基因集,没办法顺利进行GSEA. 但是KEGG数据库收录有目标物种。几经折腾,终于跑上了GSEA. 写此文档为其他研究非模式生物的人员提供一点借鉴。
在昨天介绍的KEGG数据库当中,我们可以看到,对于基因通路的可视化,最简单的就是通过类似流程图一样的形式来进行可视化的。例如下面的自噬通路图。?的只是对通路进行简单的可视化,但是有时候我们有更多的DI
我们通常呢,挑选差异基因,会选择那些log2FC比较大而且具有统计学显著性的上下调基因,不过加上MA图,就可以进一步挑选那些表达量也比较高的,因为这样的基因呢,容易去实验验证。而且呢,通常情况下常识会告诉我们高表达量基因更容易发挥作用。
KEGG被称为京都基因组百科全书,是一个综合性的数据库。对于如此庞大的数据库,肯定需要对数据进行分门别类的整理。除了将各种数据拆分到不同的子数据库中之外,KEGG还对所有的数据进行了更加细致的功能分类,这些功能分类的信息就存储在brite 数据库中。
无论是超几何分布检验和GSEA富集分析,都离不开生物学功能数据库,数据库不仅仅是GO/KEGG哦,目前最齐全的应该是属于 MSigDB(Molecular Signatures Database)数据库中定义了已知的基因集合:http://software.broadinstitute.org/gsea/msigdb 包括H和C1-C7八个系列(Collection),每个系列分别是:
不过,哪怕是对人类来说,kegg注释的也仅仅是蛋白编码基因,但是如果你了解人类gtf文件,就应该是知道,里面有6万左右的基因,如果我们的差异分析,定位到了 lncRNA,假基因,miRNA的基因,其实就不能直接进行功能数据库注释。
通常,方法需要访问在线KEGG数据库,因此需要时间。 例如,上面的命令需要几秒钟。 但是,有些是缓冲的,所以下次调用它时会更快。另一个有用的别名是检索所有通路ID的通道ID。 但是,必须首先指定您感兴趣的生物体。从上面的命令我们知道hsa(人类)是有效的生物体ID,所以让我们设置它然后获取路径列表:
kegg genes 数据库收录了物种的基因信息。 kegg 使用自己定义的ID 唯一区别每个基因,叫做kegg gene ID。
KEGG,全称“京都基因与基因组百科全书”,英文全称Kyoto Encyclopedia of Genes and Genomes。
根据提供的kegg 标识符,返回特定的记录,多个标识符之间用+ 连接,一次最多允许10个标识符,格式如下
看到了一个生物信息学数据挖掘,标题是:《Novel ferroptosis gene biomarkers and immune infiltration profiles in diabetic kidney disease via bioinformatics》,通过大量的数据分析拿到了11个FRDEGs基因列表,然后去对这11个基因进行“屎上雕花”,它们分别是: (ALOX5, CCL5, FHL2, G0S2,IGKC,KRT19,LCN2,LTF,PRKCB,RRM2,TUBA1A) ,比如下面的go数据库的注释结果,就使用了4种展示策略 :
生物信息数据分析教程视频——10-TCGA数据库:mi NA的表达探索
生物信息学研究中,获取基因列表的GO和KEGG富集分析的需求非常常见。目前有许多生物信息学手段或者数据库可以实现基因富集分析,例如DAVID,但它们有些是收费的,有些不易于使用且很少维护。例如DAVID曾经有六年的时间(2010-2016)没有维护数据库,最近的更新也已经两年半了。而Metascape每月更新其相关的40多个数据库,以确保提供最准确的结果。因此Metascape数据库可以作为富集分析的比较好的手段。
对于医学生而言,我们要是查询文献的话,更多使用的还是pubmed而不是web of science这样的文献检测数据库。关于pubmed,这个是属于NCBI旗下的一个文献检索网站。
KEGG是通路数据库中最庞大的,涵盖基因组网络信息,主要注释基因的功能和调控关系。当我们选到了合适的候选分子,单变量研究也已做完,接着研究机制的时便可使用到它。 你需要了解你的分子目前已有哪些研究,跟
摘要总结:本文通过五个案例,介绍了在生物信息学领域如何通过KEGG数据库进行通路分析、基因表达量分析、信号通路富集分析、基因共表达分析以及差异分析等操作。同时,本文还介绍了如何使用GEO数据库进行数据检索和分析,以及使用R语言进行通路富集分析的方法。通过这些操作,可以更好地理解基因调控网络、挖掘潜在的功能模块以及发现新的生物标志物和靶点。
对于mRNA数据,我们经常通过GO和KEGG富集分析来进行功能分析,对于miRNA数据而言,我们可以通过miRNA对应的mRNA来研究miRNA相关功能。 miRpath是一个在线网站,集成了miRNA靶基因数据库, 只需要输入感兴趣的miRNA Id, 就可以从靶基因数据库中获取miRNA对应的靶基因,然后进行GO和KEGG富集分析,网址如下
复合糖作为糖类与蛋白质或者脂质结合的产物 ,在生物中分布广泛,具有重要的功能。GLYCAN 数据库收录了实验验证过的复合糖的信息,主要是结构信息。每条记录用G number 标识,比如 G00197。
KEGG(Kyoto Encyclopedia of Genes and Genomes,京都基因与基因组百科全书)是一个数据库资源,用于从分子水平的信息,了解生物系统(如细胞、生物体和生态系统)的高层次功能和效用。
KEGG数据库称之为基因组百科全书,是一个包含gene, pathway等多个子数据库的综合性数据库。为了更好的查询kegg数据,官方提供了对应的API。
我们直奔主题,今天给大家介绍下利用R语言去下载KEGG数据库的所有数据。这里需要用到的包是KEGGREST。首先看下包的安装以及所需要的相关包:
KEGG数据库是我们经常用的一个生物医学数据库,虽然KEGG网站用起来很方便,但是如果想批量获取数据并整理成结果的话,使用R语言处理无疑是一个比较好的选择。
kegg orthology 数据库是 kegg 的核心,利用基因在不同物种之间的保守性,使得我们可以在更高层次上解读基因功能。 pathway, brite, module 等数据库都是建立在KO 数据库的基础之上的,所以任何基因组的数据都可以映射到这些数据库中去。当然这种方法有其局限性,在一定程度上忽略了特定物种内基因的变异信息。
KEGG Reaction 是收录酶促反应相关信息的数据库,包含了所有代谢通路中的酶促反应和一些只在enzyme 数据库中有记录的酶促反应,每条记录用R Number 唯一标识。
为了预防和治疗疾病,理解细胞活动至关重要。细胞活动通常是一系列蛋白质和代谢物质的动态变化过程,叫做pathway。我们常用的pathway 数据库就是KEGG pathway,除了KEGG pathway 之外,还有很多的pathway 数据库可以使用。
来自KEGG和Reactome两个数据库,本文主要介绍下从这两个数据库获取基因列表的方法
拿到了一个单细胞表达量矩阵,默认需要进行: 单细胞聚类分群注释 ,如果你对单细胞数据分析还没有基础认知,可以看基础10讲:
其实这样的笑话在单细胞数据挖掘文章里面层出不穷,比如另外一个数据挖掘文章;《Identification of Five Hub Genes Based on Single-Cell RNA Sequencing Data and Network Pharmacology in Patients With Acute Myocardial Infarction》,链接是:https://www.frontiersin.org/articles/10.3389/fpubh.2022.894129/full ,里面的bug就更可怕了,居然是把成纤维细胞错误的命名成为了单核细胞。如下所示:
kegg drug 数据库是一个药物相关信息的综合数据库,包括了在日本,美国,欧洲上市的的药物。所有在日本上市的药物,不论处方药还是非处方药,包括天然药物和中药,都会在Drug 数据中有对应的记录;对于在美国和欧洲上市的药物, 只有一部分处方药的信息在drug 数据库中有记录。
使用KEGG通路的基因列表进行单细胞GSEA GSVA分析的过程,我们需要遵循以下步骤:
NGS系列文章包括NGS基础、高颜值在线绘图和分析、转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这)、ChIP-seq分析 (ChIP-seq基本分析流程)、单细胞测序分析 (重磅综述:三万字长文读懂单细胞RNA测序分析的最佳实践教程)、DNA甲基化分析、重测序分析、GEO数据挖掘(典型医学设计实验GEO数据分析 (step-by-step))、批次效应处理等内容。
在前面的两篇文章KEGG数据库不会下载?了解下API!与KEGG数据库下载加速攻略!中介绍了KEGG数据库蛋白序列数据的下载方法,但是在实际操作中发现两个问题:
关于clusterProfiler这个R包就不介绍了,网红教授宣传得很成功,功能也比较强大,主要是做GO和KEGG的功能富集及其可视化。简单总结下用法,以后用时可直接找来用。
基于超几何分布检验的富集分析做KEGG数据库的时候,它总共只有七千多个基因,人类总的背景基因有两万多个,被KEGG记住的只有6500个(一直在增加),假设一条通路有117个基因参与,我们的差异基因中有10个与之重合,这已经是很多了,超几何分布检验会判定是统计学显著。
该数据库是关于基因、蛋白、酶代谢子、药物、生化反应以及通路的综合数据库。该数据库实际由多个子数据库构成,最著名的当属通路KEGG PATHWAY数据库,它是目前被广泛使用的通路数据库。其中包含上千个物种的代谢与信号传导通路信息,这些信息从生物学实验和文献中提取,并经过人工校正。实时更新的管理模式也是人们能够从该数据库获得最新的通路数据。
另外,插一个题外话,因为黑粉瞎举报,我们生信技能树已经被取消了半个月的原创标识功能,让我很不爽。
相信大家对Y叔的clusterprofiler这个R包并不陌生,一般做基因富集分析的时候都会用到这个R包。这个包非常实用,并且画出来的图也很不错。
具有相同功能的基因被归类到kegg orthology 中,每个KO 代表具体的一个功能。在生命活动中,往往需要多个功能单位共同发挥作用,比如多个蛋白质构成复合体来发挥调控作用,此时多个KO就整合在了一起。这个例子说明在KO 之上,必然还存在一个分类系统,将参与同一过程的多个KO划分在一起。实际上,KEGG Module 数据库就是存储这种信息的数据库。
领取专属 10元无门槛券
手把手带您无忧上云