基因本体(GO)是一个用于组织和描述基因功能的系统,它提供了结构化和标准化的方式来表示生物学知识。GO 包含不同的概念,这些概念通过明确的关系连接起来,适用于所有生物物种。它帮助科学家对基因产物进行注释,比较不同生物体的功能,并整合来自各种数据库的知识,从而形成一个一致的计算框架来支持生物学研究。
多个组织承担了可视化 GO 术语的任务。
GO 由三个部分组成:分子功能(MF)、细胞成分(CC)和生物过程(BP)。
基因产物在何处发挥作用? Where?
细胞组分(CC)用于描述分子功能发生的细胞定位。CC 包括:
它是如何工作的? How?
分子功能(MFs)指的是基因产物在分子层面上的活动,比如“催化作用”或“转录调节活性”。这些功能通常由单个基因产物(如蛋白质或RNA)执行,但有时需要多个基因产物组成的分子复合体来完成,尤其是当活动无法归因于复合体中的某一个基因产物时。例如,广泛的功能术语包括催化活性和运输活性,而更具体的功能术语则包括腺苷酸环化酶活性或胰岛素受体活性。
GO MF 术语代表的是活动而非执行这些活动的实体。为避免基因产物名称与其分子活性之间产生混淆,GO MF 术语都附加"活性"一词(例如蛋白激酶的 GO MF 术语就是蛋白激酶活性)。最后需要说明的是,MF 不限定活动发生的地点、时间或具体情境。
基因产物的作用是什么? What?
生物过程(BP)是指通过多种分子活动的协同作用完成的较大规模过程或"生物程序"。广义 BP 术语的示例包括 DNA 修复或信号转导,而更具体的术语示例则包括胞嘧啶生物合成过程或 D-葡萄糖跨膜运输。
基因本体论的三个维度各自拥有独立的根节点本体术语。此外,这三个维度是互斥的,意味着不同本体维度术语之间不存在"属于"关系。但"部分参与"和"发生于"等其他关系可以在不同 GO 维度术语间建立联系。例如,分子功能(MF)术语"细胞周期蛋白依赖性蛋白激酶活性"就是生物过程"细胞周期调控"的组成部分。
基因本体(GO)被构建成一个图形结构,其中每个GO术语是一个节点,节点之间的关系是边。GO是分层的,子术语比父术语更具体,但不同于严格的层级结构,一个术语可以有多个父术语。例如,"己糖生物合成过程"这个生物过程术语有两个父术语:"己糖代谢过程"和"单糖生物合成过程"。这反映了生物合成过程是代谢过程的一个子类型,而己糖是单糖的一个子类型。
基因本体论(GO)网站是定义方面的权威来源,但并不特别适合进行数据解读。欧洲生物信息学研究所的 Quick GO 服务提供了一个功能更友好、用户界面更佳的网页平台。在 QuickGO 中查看"己糖生物合成过程"(hexose biosynthetic process )
GeneScape 是一款用于可视化基因功能的软件工具。用户输入基因列表后,该软件会绘制出与这些基因相关的基因本体(GO)术语子图。
访问:
pip install genescape
genescape web
一个 GO term 有多个描述信息:
我们可能实用过 GO 数据的各种在线网站或者 R 包等工具,但他们的实质都是从 GO 原始数据中提取出的信息,知道这些原始信息的组织形式是很久价值的。
基因本体文件提供 OBO、OWL 和 JSON 三种格式。GO 提供三个版本:
OBO 格式的基因本体文件每条信息都采用如下格式记录:
[Term]
id: GO:0000001
name: mitochondrion inheritance
namespace: biological_process
def: "The distribution of mitochondria, including the mitochondrial genome, into daughter cells after mitosis or meiosis, mediated by interactions between mitochondria and the cytoskeleton." [GOC:mcc, PMID:10873824, PMID:11389764]
synonym: "mitochondrial inheritance" EXACT []
is_a: GO:0048308 ! organelle inheritance
is_a: GO:0048311 ! mitochondrion distribution
下载完文件之后,可以使用如下命令查找 term 的详细信息
cat go.obo | grep "id: GO:0005886" -A 5
cat go.obo:__cat命令用于显示go.obo文件的内容。__go.obo文件是一个包含Gene Ontology术语及其定义的文件,通常用于生物信息学分析。|:管道符号,将cat go.obo的作为输出输入提交给后面的命令grep。grep "id: GO:0005886":__grep命令用于搜索字符串"id: GO:0005886"。这个字符串代表一个特定的GO术语ID。-A 5:该选项告诉grep在找到匹配行后,再输出其后面5行内容。这通常用于查看该GO术语的详细信息,如名称、定义、注释等。基因注释文件具有物种特异性,反映了特定项目(主要是模式生物数据库团队)的工作成果,旨在为其研究的生物体提供全面且非冗余的注释文件。
基因本体联盟将注释数据(即使用 GO 术语表示基因产物属性)存储在标准化的制表符分隔文本文件中。文件中的每一行代表基因产物与 GO 术语之间的单个关联,包含支持该关联的证据代码和参考文献。
关联文件是 GAF 格式,将基因产物与 GO 术语相连接,比如 EBI 基因本体注释数据库(GOA)项目:
UniProtKB A0A024RBG1 NUDT4B enables GO:0003723 GO_REF:0000043 IEA UniProtKB-KW:KW-0694 F Diphosphoinositol polyphosphate phosphohydrolase NUDT4B NUDT4B protein taxon:9606 20250428 UniProt UniProtKB:A0A024RBG1
UniProtKB A0A024RBG1 NUDT4B enables GO:0005515 PMID:33961781 IPI UniProtKB:Q8NFP7 F Diphosphoinositol polyphosphate phosphohydrolase NUDT4B NUDT4B protein taxon:9606 20250426 IntAct UniProtKB:A0A024RBG1
UniProtKB A0A024RBG1 NUDT4B enables GO:0008486 GO_REF:0000003 IEA EC:3.6.1.52 F Diphosphoinositol polyphosphate phosphohydrolase NUDT4B NUDT4B protein taxon:9606 20250428 UniProt UniProtKB:A0A024RBG1
UniProtKB A0A024RBG1 NUDT4B enables GO:0016462 GO_REF:0000002 IEA InterPro:IPR047198 F Diphosphoinositol polyphosphate phosphohydrolase NUDT4B NUDT4B protein taxon:9606 20250429 InterPro UniProtKB:A0A024RBG1
......
这个文件包含 17 个字段:
探索一下有多少个基因被注释到 GO:
# 去除注释行
gunzip -c goa_human.gaf.gz | grep -v '^!' > goa_human.gaf
# 有多少个基因被注释到 GO
cat goa_human.gaf | cut -f 3 | sort-uniq-count | wc -l
# 44717
哪些基因和蛋白是被注释最多的:
# GO 数据库中被最多注释到的蛋白
cat goa_human.gaf | cut -f 2 | sort-uniq-count-rank | head
1145 P04637
1125 P42858
1104 P05067
996 P00533
940 P62993
831 P35222
708 Q08379
695 Q12933
682 P31749
657 P0CG48
# GO 数据库中被最多注释到的基因
cat goa_human.gaf | cut -f 3 | sort-uniq-count-rank | head
1145 TP53
1125 HTT
1104 APP
996 EGFR
940 GRB2
831 CTNNB1
708 GOLGA2
695 TRAF2
682 AKT1
657 UBC
相关链接:
https://geneontology.org/
https://www.biostarhandbook.com/index.html