首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >GO 数据库

GO 数据库

作者头像
生信菜鸟团
发布2025-06-11 13:05:59
发布2025-06-11 13:05:59
9860
举报
文章被收录于专栏:生信菜鸟团生信菜鸟团

基因本体(GO)是一个用于组织和描述基因功能的系统,它提供了结构化和标准化的方式来表示生物学知识。GO 包含不同的概念,这些概念通过明确的关系连接起来,适用于所有生物物种。它帮助科学家对基因产物进行注释,比较不同生物体的功能,并整合来自各种数据库的知识,从而形成一个一致的计算框架来支持生物学研究。

GO 在线数据库

多个组织承担了可视化 GO 术语的任务。

  • geneontology.org 是"官方"数据来源网站。
  • Quick Go
  • AmiGO

GO 三大功能

GO 由三个部分组成:分子功能(MF)、细胞成分(CC)和生物过程(BP)。

细胞组分(Cellular Component)

基因产物在何处发挥作用? Where?

细胞组分(CC)用于描述分子功能发生的细胞定位。CC 包括:

  • 细胞解剖结构包括细胞实体,比如质膜和细胞骨架,以及被膜包围的细胞隔室,比如线粒体。
  • 它们所属的稳定含蛋白质复合体。
  • 病毒体组分,因病毒非细胞生物而单独分类,例如病毒衣壳和病毒包膜。

分子功能(Molecular Function)

它是如何工作的? How?

分子功能(MFs)指的是基因产物在分子层面上的活动,比如“催化作用”或“转录调节活性”。这些功能通常由单个基因产物(如蛋白质或RNA)执行,但有时需要多个基因产物组成的分子复合体来完成,尤其是当活动无法归因于复合体中的某一个基因产物时。例如,广泛的功能术语包括催化活性和运输活性,而更具体的功能术语则包括腺苷酸环化酶活性或胰岛素受体活性。

GO MF 术语代表的是活动而非执行这些活动的实体。为避免基因产物名称与其分子活性之间产生混淆,GO MF 术语都附加"活性"一词(例如蛋白激酶的 GO MF 术语就是蛋白激酶活性)。最后需要说明的是,MF 不限定活动发生的地点、时间或具体情境。

生物过程(Biological Process)

基因产物的作用是什么? What?

生物过程(BP)是指通过多种分子活动的协同作用完成的较大规模过程或"生物程序"。广义 BP 术语的示例包括 DNA 修复或信号转导,而更具体的术语示例则包括胞嘧啶生物合成过程或 D-葡萄糖跨膜运输。

根节点术语(Root Terms)

基因本体论的三个维度各自拥有独立的根节点本体术语。此外,这三个维度是互斥的,意味着不同本体维度术语之间不存在"属于"关系。但"部分参与"和"发生于"等其他关系可以在不同 GO 维度术语间建立联系。例如,分子功能(MF)术语"细胞周期蛋白依赖性蛋白激酶活性"就是生物过程"细胞周期调控"的组成部分。

GO 层次结构

基因本体(GO)被构建成一个图形结构,其中每个GO术语是一个节点,节点之间的关系是边。GO是分层的,子术语比父术语更具体,但不同于严格的层级结构,一个术语可以有多个父术语。例如,"己糖生物合成过程"这个生物过程术语有两个父术语:"己糖代谢过程"和"单糖生物合成过程"。这反映了生物合成过程是代谢过程的一个子类型,而己糖是单糖的一个子类型。

GO 可视化

Quick GO

基因本体论(GO)网站是定义方面的权威来源,但并不特别适合进行数据解读。欧洲生物信息学研究所的 Quick GO 服务提供了一个功能更友好、用户界面更佳的网页平台。在 QuickGO 中查看"己糖生物合成过程"(hexose biosynthetic process )

GeneScape

GeneScape 是一款用于可视化基因功能的软件工具。用户输入基因列表后,该软件会绘制出与这些基因相关的基因本体(GO)术语子图。

访问:

  • 网页地址:https://github.com/ialbert/genescape-central/
  • 本地化安装
代码语言:javascript
复制
pip install genescape
genescape web
图片
图片

GO 术语

图片
图片

一个 GO term 有多个描述信息:

必要元素

  • Accession (also known as Unique identifier) 登录号(亦称唯一标识符):每个术语都有一个 GO ID,即一个以 GO:为前缀的七位数字唯一标识符,例如 GO:0005739、GO:1904659 或 GO:0016597。
  • Term name 术语名称:每个术语都有一个人类可读的名称——例如线粒体、D-葡萄糖跨膜转运或氨基酸结合。
  • Ontology (also known as Aspect) 本体(又称方面):表示该术语属于三个子本体中的哪一个。分别写作分子功能(MF)、生物过程(BP)和细胞组分(CC)。
  • Definition 定义:对该术语所代表内容的文字描述,以及信息来源的参考文献。
  • Relationships to other terms 与其他术语的关系:描述该术语与本体中其他术语的关联方式。除代表上述各本体方面的根术语外,所有术语都通过"属于子类"关系与其他术语相关联。基因本体论采用多种其他关系类型,具体关系说明详见本体论使用的关系文档页面。

可选元素

  • Alternate ID (also known as Secondary IDs) 替代 ID(又称次要 ID):当两个或多个术语含义相同时,会合并为单一术语。所有术语 ID 均被保留,以确保不丢失任何信息(例如对已合并 ID 的注释)。
  • Synonyms 同义词:与术语名称含义密切相关的替代词或短语,并通过同义词范围标明名称与同义词之间的关系。GO 同义词的范围包括:Exact 精确同义词:完全等同的表述;可与术语名称互换使用;例如"鸟氨酸循环"是"尿素循环"的精确同义词。Broad 广义:该同义词比术语名称更宽泛;例如,细胞分裂是胞质分裂的广义同义词。Narrow 狭义:该同义词比术语名称更具体或更精确;例如,光解酶介导的嘧啶二聚体修复是光反应修复的狭义同义词。Related 相关:这些术语以某种不精确的方式相关联;例如,细胞色素 bc1 复合体是泛醌-细胞色素 c 还原酶活性的相关同义词;毒力是致病机制的相关同义词。Custom synonym 本体论中也使用自定义同义词类型。例如,许多同义词被指定为系统同义词;此类同义词与术语名称完全等同。
  • Comment 注释:关于该术语及其用法的额外信息。
  • Chem. react 化学反应:对于与 RHEA 化学反应数据库有交叉引用的术语,本部分列出反应参与者。
  • Subset 子集:表明该术语属于一个或多个 GO 子集。
  • Obsolete tag 废弃标签:布尔值,表示该术语已被弃用,不应继续使用。当 GO 术语超出范围、命名或定义存在误导性,或所描述概念更适合以其他方式呈现时,该术语将被废弃并从已发布的本体论中移除。在此情况下,术语及其 ID 仍保留在本体论中,但会被标记为废弃状态,且与其他术语的所有关联关系均被移除。系统会为该术语添加注释说明废弃原因,并在可能的情况下建议替代术语。
  • Taxon constraints分类约束:某些 GO 术语的注释仅限于特定物种;分类约束规定了该术语可应用于哪些分类群。
  • Database cross-references数据库交叉引用:数据库交叉引用(dbxrefs)指向其他数据库中相同或非常相似的对象。这些数据库交叉引用可通过术语描述底部的选项卡查看(如下方截图所示)。
图片
图片

GO 数据

我们可能实用过 GO 数据的各种在线网站或者 R 包等工具,但他们的实质都是从 GO 原始数据中提取出的信息,知道这些原始信息的组织形式是很久价值的。

gene ontology files

基因本体文件提供 OBO、OWL 和 JSON 三种格式。GO  提供三个版本:

  • go-basic 基础版 GO,经过过滤确保本体无环状结构。此版本可安全实现注释在图谱中的向上传播。包含的关系类型有"属于"、"部分属于"、"调控"、"负调控"和"正调控"。此版本排除了跨越 GO 三大层级体系的关系,推荐用于大多数基于 GO 的注释工具。
  • go 核心本体版。相比 go-basic 版本增加了额外关系类型,包括"具有部分"和"发生于"。这些关系可能连接 GO 不同分支的术语并形成本体环状结构,因此并非所有关系都适合注释传播。此版本不包含与外部本体的关联关系。
  • go-plus GO 的完全公理化版本。包含跨本体关系(公理)并整合了 ChEBI、细胞本体和 Uberon 等必需外部本体。同时包含完整的关系类型集合,含部分 go 中未收录的类型。此版本不提供.obo 格式。

OBO 格式的基因本体文件每条信息都采用如下格式记录:

代码语言:javascript
复制
[Term]
id: GO:0000001
name: mitochondrion inheritance
namespace: biological_process
def: "The distribution of mitochondria, including the mitochondrial genome, into daughter cells after mitosis or meiosis, mediated by interactions between mitochondria and the cytoskeleton." [GOC:mcc, PMID:10873824, PMID:11389764]
synonym: "mitochondrial inheritance" EXACT []
is_a: GO:0048308 ! organelle inheritance
is_a: GO:0048311 ! mitochondrion distribution

下载完文件之后,可以使用如下命令查找 term 的详细信息

代码语言:javascript
复制
cat go.obo | grep "id: GO:0005886"  -A 5
  1. cat go.obo__cat命令用于显示go.obo文件的内容。__go.obo文件是一个包含Gene Ontology术语及其定义的文件,通常用于生物信息学分析。
  2. |:管道符号,将cat go.obo的作为输出输入提交给后面的命令grep
  3. grep "id: GO:0005886"__grep命令用于搜索字符串"id: GO:0005886"。这个字符串代表一个特定的GO术语ID。
  4. -A 5:该选项告诉grep在找到匹配行后,再输出其后面5行内容。这通常用于查看该GO术语的详细信息,如名称、定义、注释等。

gene annotation files

基因注释文件具有物种特异性,反映了特定项目(主要是模式生物数据库团队)的工作成果,旨在为其研究的生物体提供全面且非冗余的注释文件。

基因本体联盟将注释数据(即使用 GO 术语表示基因产物属性)存储在标准化的制表符分隔文本文件中。文件中的每一行代表基因产物与 GO 术语之间的单个关联,包含支持该关联的证据代码和参考文献。

关联文件是 GAF 格式,将基因产物与 GO 术语相连接,比如 EBI 基因本体注释数据库(GOA)项目:

代码语言:javascript
复制
UniProtKB	A0A024RBG1	NUDT4B	enables	GO:0003723	GO_REF:0000043	IEA	UniProtKB-KW:KW-0694	F	Diphosphoinositol polyphosphate phosphohydrolase NUDT4B	NUDT4B	protein	taxon:9606	20250428	UniProt		UniProtKB:A0A024RBG1
UniProtKB	A0A024RBG1	NUDT4B	enables	GO:0005515	PMID:33961781	IPI	UniProtKB:Q8NFP7	F	Diphosphoinositol polyphosphate phosphohydrolase NUDT4B	NUDT4B	protein	taxon:9606	20250426	IntAct		UniProtKB:A0A024RBG1
UniProtKB	A0A024RBG1	NUDT4B	enables	GO:0008486	GO_REF:0000003	IEA	EC:3.6.1.52	F	Diphosphoinositol polyphosphate phosphohydrolase NUDT4B	NUDT4B	protein	taxon:9606	20250428	UniProt		UniProtKB:A0A024RBG1
UniProtKB	A0A024RBG1	NUDT4B	enables	GO:0016462	GO_REF:0000002	IEA	InterPro:IPR047198	F	Diphosphoinositol polyphosphate phosphohydrolase NUDT4B	NUDT4B	protein	taxon:9606	20250429	InterPro		UniProtKB:A0A024RBG1
......

这个文件包含 17 个字段:

图片
图片

探索一下有多少个基因被注释到 GO:

代码语言:javascript
复制
# 去除注释行
gunzip -c goa_human.gaf.gz | grep -v '^!' > goa_human.gaf

# 有多少个基因被注释到 GO
cat goa_human.gaf | cut -f 3 | sort-uniq-count | wc -l
# 44717

哪些基因和蛋白是被注释最多的:

代码语言:javascript
复制
# GO 数据库中被最多注释到的蛋白
cat goa_human.gaf | cut -f 2 | sort-uniq-count-rank | head
1145	P04637
1125	P42858
1104	P05067
996	P00533
940	P62993
831	P35222
708	Q08379
695	Q12933
682	P31749
657	P0CG48


# GO 数据库中被最多注释到的基因
cat goa_human.gaf | cut -f 3 | sort-uniq-count-rank | head
1145	TP53
1125	HTT
1104	APP
996	EGFR
940	GRB2
831	CTNNB1
708	GOLGA2
695	TRAF2
682	AKT1
657	UBC

相关链接:

https://geneontology.org/

https://www.biostarhandbook.com/index.html

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-06-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信菜鸟团 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • GO 在线数据库
  • GO 三大功能
    • 细胞组分(Cellular Component)
    • 分子功能(Molecular Function)
    • 生物过程(Biological Process)
  • 根节点术语(Root Terms)
  • GO 层次结构
  • GO 可视化
    • Quick GO
    • GeneScape
  • GO 术语
    • 必要元素
    • 可选元素
  • GO 数据
    • gene ontology files
    • gene annotation files
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档