前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Patterns | 自监督图预训练模型整合大规模分子网络以探寻疾病相关基因的内在互作机制

Patterns | 自监督图预训练模型整合大规模分子网络以探寻疾病相关基因的内在互作机制

作者头像
智能生信
发布2022-12-29 17:36:02
3710
发布2022-12-29 17:36:02
举报
文章被收录于专栏:智能生信智能生信

编辑 | 赵晏浠

论文题目:

Self-supervised graph representation learning integrates multiple molecular networks and decodes gene-disease relationships

一、背景&摘要

近期华大智造研发团队作为第一作者和通讯作者联合浙江大学、北京大学一起开发的大规模分子网络预训练与下游图注意力机制模型发表于Cell子刊Patterns。该模型整合了多个分子网络以提高信噪比,利用节点级别和子图级别的Self-supervised representation learning进行上游图预训练,使用图注意力网络(graph attention network)保证下游任务再训练的有效收敛,并可以同时对上千条通路或上百种疾病的关联基因进行训练和验证,此上下游图数据训练模型取名为Graphene。随着高通量测序实验技术的不断发展,实验所积累的基因和蛋白质的物理相互作用和功能关联数据所形成分子网络变得越发复杂与多样,Graphene为这些网络的有效整合和生物学洞察力的提取提供了强有力的支持。

二、模型与方法

整合多个分子网络的图预训练:

Graphene采用两步——(1)自监督图表示学习(2)下游图节点分类任务训练——的方法整合多个分子网络达到基因功能分析目的。首先预训练基于此网络的 GCN 来初始化每个基因或蛋白质的embedding。然后利用此embedding加上网络拓扑结构一起作为下游 GAT 模型的输入重新训练。Graphene分别在通路、疾病基因重构以及疾病基因重排序等任务上达到了SOTA。

图1

下游任务训练:

疾病相关基因重要度排序任务被用来解码基因-疾病关系,其训练集为GWAS 数据,此下游任务被抽象成图节点分类任务。Graphene收集从 GWAS 下载的 202 种疾病的关联信号并利用 60% 的标签进行下游训练。GWAS 信号中学习的结果输出基因 embedding 直接被用在另外两个独立的疾病基因集(DisGeNET和 UK Biobank)上进行测试,无需进一步的模型训练。值得一提的是,此方法可以在多种疾病上同时train以及test。实验结果与多种其它基于图的算法进行了benchmark,结果显示由Graphene改造的几类方法无论在算法效率还是精度上都有较明显的优势。

图2

Graphene采用来自基因型组织表达 (GTEx) 项目的表达数据和Jensen-Shannon divergence 测量每个人体组织中每个基因的特异性。通过One-sided Wilcoxon rank-sum检验和Bonferroni 校正,重排序结果的Top 300关联基因的检验结果热图显示了各种疾病之间存在明显的组织富集差异。例如精神疾病富集于大脑相关组织。相比之下作为baseline 的GWAS的原始疾病相关基因则未显示出同等明显的组织特异性差异。

图3

本文使用 GAT用于下游功能分析的网络模型,因此attention weights被用来作为提取基因 - 基因之间重要的相互作用的依据。从疾病基因(精神分裂症SCZ,冠心病CAD等)子图中可以看到,可视化的attention weights的不同宽度代表了相关节点的互作在目标疾病中的重要度,彼此关系密切的一系列基因/蛋白组成了影响目标疾病的重要功能模块。例如Glutamatergic Synapse 和Calcium Signaling通路模块在精神分裂症中的作用被凸显出来。

图4

图5

三、总结

在疾病相关任务缺乏金标准的情况下,Graphene可以作为一种现成的工具来改进任何更新的疾病GWAS 信号发现并重排序后选基因以获取新的致病机制。多疾病同时训练的机制让Graphene在发现疾病之间的区别和联系上有着天然的优势,例如一些难以区分的精神类疾病。

本文的方法可以为发现生物学相关模块提供orthogonal evidence并阐明潜在的疾病机制。基于Graphene在基因优先度重排序上的鲁棒性,其应用还可以扩展到开发目标基因组以用于诊断遗传病或对复杂性状的风险评估。此外,对于人群组学数据可用的情况下,Graphene可改造为接收变体信息和其他多组学特征的拼接,并在下游再训练阶段实现患者级别的疾病分类,从而为精准用药的应用提供潜在的分析工具。

值得注意的是,几乎同期发表于Nature Methods上的文章BIONIC[1]采用了与本文相近的处理生物网络数据的模式,即首先整合网络并提取节点特征,其次在下游任务上重新打标签进行二次训练。在节点分类任务上BIONIC同样采用了GAT网络结构来提高性能。

参考文献:

[1] Forster D T, Li S C, Yashiroda Y, et al. BIONIC: biological network integration using convolutions[J]. Nature Methods, 2022, 19(10): 1250-1261.


论文链接

https://www.cell.com/patterns/fulltext/S2666-3899(22)00291-4

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-12-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 智能生信 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图数据库 KonisGraph
图数据库 KonisGraph(TencentDB for KonisGraph)是一种云端图数据库服务,基于腾讯在海量图数据上的实践经验,提供一站式海量图数据存储、管理、实时查询、计算、可视化分析能力;KonisGraph 支持属性图模型和 TinkerPop Gremlin 查询语言,能够帮助用户快速完成对图数据的建模、查询和可视化分析。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档