前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Sci. Adv. | 治疗性遗传靶点的全表型识别

Sci. Adv. | 治疗性遗传靶点的全表型识别

作者头像
DrugAI
发布2024-06-04 19:08:48
940
发布2024-06-04 19:08:48
举报
文章被收录于专栏:DrugAIDrugAI

DRUGAI

今天为大家介绍的是来自Dimitrios Vitsios团队的一篇论文。人类基因组数据集的持续扩展推动了治疗靶点的识别,然而,从基因注释中提取基因-疾病关联仍然具有挑战性。在这里,作者介绍了Mantis-ML 2.0这一框架,它整合了阿斯利康的生物学洞察力知识图谱与多个表格数据集,评估了整个表型组的基因-疾病概率。作者使用图神经网络,捕捉图的整体结构,并在数百个平衡数据集上通过一个鲁棒的半监督学习框架进行训练,以提供人类外显子组的基因-疾病概率。Mantis-ML 2.0结合了自然语言处理,自动化数千种疾病的疾病相关特征选择。改进的模型展示了平均6.9%的分类能力提升,实现了在5220种来自人类表型本体、OpenTargets和英国基因组学的疾病上的中位接收者操作特征(ROC)曲线下面积(AUC)得分为0.90。值得注意的是,Mantis-ML 2.0优先考虑了来自独立的英国生物库表型广泛关联研究(PheWAS)的关联,提供了一种更强的分选方式,并减轻了PheWAS关联的不足。

确定和优先考虑用于治疗疾病的遗传目标是一项复杂的工作,它涉及仔细权衡各种论点和证据线索。一种有效的策略是关注具有明确遗传基础的机制,因为针对这些机制的疗法更有可能在临床试验和监管过程中成功。虽然识别遗传目标并非易事,但全基因组关联研究、下一代测序技术的进步,以及公私合作的前竞争性合作都极大地推动了我们对生物学和病理学遗传学的理解。然而,数据的激增已经变得过于详细,无法手工消化,重要的发现实际上隐藏在显而易见的地方。新兴的表型广泛研究进一步需要采用更高通量的方法来解析基因组-表型数据。

在首次尝试中,作者之前引入了一个名为Mantis-ML的自动化机器学习框架,它利用少数已知的与疾病相关的基因和公开注释的遗传数据来预测感兴趣的候选基因。Mantis-ML使用一组通用和疾病特异性特征(例如,基因不耐受、组织特异性表达、动物敲除模型等)对已知相关基因的疾病的底层生物学进行建模。通过从这些已知基因推断出疾病的遗传、功能和系统生物学,Mantis-ML尝试将这些发现推广到所有其他基因,估计每个基因与疾病的生物学相关性的概率。

图 1

随后,作者开发了一个完全流线型和自动化的Mantis-ML版本(见图1)。Mantis-ML 2.0现在包括一个综合网络——阿斯利康生物学洞察力知识图谱(BIKG),它汇集了基因、蛋白质、疾病和化合物之间已知的关系并跨越55个不同的数据来源。此外,Mantis-ML 2.0部署了自然语言处理(NLP),消除了手动输入疾病或表型的相关特征的需求。有了自动化和多维的基础,作者发现Mantis-ML 2.0已经成熟,可以发现以前未被识别的基因-疾病关联,并与人类遗传证据结合作为未来研究和开发计划的起点。作者报告了全表型Mantis-ML得分,以及通过引入一个公开可用的网络资源进行的一系列后续分析:http://mantisml.public.cgr.astrazeneca.com。

利用知识图谱和GNNs进行改进

图 2

Mantis-ML的性能通过监测经典接收者操作特征(ROC)曲线下的面积(AUC)来衡量。作者实施了几次迭代以提高其性能(见图2A)。在整合了人类组织特异性数据和NLP后,作者将疾病数量从少数扩展到数千个,观察到AUC从0.84降至0.81,这表明自动化和标准化Mantis-ML并未损害预测性能。在随后的迭代中用BIKG特征替换InWeb特征,结果相对于第一次迭代提高了中位AUC的数值(从0.84提高到0.86)。加入图卷积网络(GCN)后,中位AUC进一步提高到0.88。为了使Mantis-ML 2.0与全表型数据接口优化,作者用成本较低的简单图卷积(SGCs)替换了GCN,中位AUC提高至0.90。为了评估NLP自动化的可靠性,作者首先比较了使用NLP方法与手动策划输入的Mantis-ML的结果。在测试13种异质疾病时,Mantis-ML的得分在两种情况下异常相似,中位Pearson相关系数为0.98(见图2B)。

因为Mantis-ML会为每个基因生成概率分数,作者通过在三个资源中交叉验证已知与疾病相关的基因的分数来测试其可靠性。作者部署了Mantis-ML来预计算在三个资源中5220种疾病的基因-疾病概率分数:HPO(n = 2575)、OT(n = 2500)以及GEL(n = 145)。在所有三个资源中测试的所有疾病中,中位AUC为0.90(见图2C)。在GEL的疾病中,Mantis-ML 2.0表现最好,其AUC为0.96。

全表型的基因与疾病网络

图 3

得到Mantis-ML 2.0之后,作者首先着手探索绘制基因-疾病概率分数是否可以揭示疾病的独特模式或群集,从而发现具有共享遗传或分子特征的表型。两种疾病在图中越接近,它们之间相关联的基因重叠得越多。当为HPO、GEL和OT绘制分数时,作者在每个网络中观察到有意义的群集,HPO和GEL显示了多个疾病群集,而OT显示了一个明显的癌症生理学群集。手工检查HPO疾病分数揭示了紧密的临床特征群集(见图3A),如小脑伴肝囊肿、心悸伴心律失常以及智力障碍伴注意力缺陷活动障碍。作者还试图在整个表型组中提取Mantis-ML训练期间最有贡献的特征。作者专注于汇总来自HPO的所有疾病的特征重要性分数,报告了前30个特征(见图3B)。从BIKG图中得出的信息(种子基因重叠)被评为最重要的特征,展示了可以从如知识图谱这样的数据丰富的表达中获取有价值的信息。

优先考虑较少被研究的基因

图 4

作者接着探索Mantis-ML是否可以用来识别有前景但研究较少的感兴趣基因。作者发现,基因的Mantis-ML 2.0得分与它与BIKG节点的交集数量部分相关,它可以作为基因注释和研究程度的一个代理指标(见图4A)。因此,Mantis-ML得分高(> 0.9)但BIKG注释较少的基因可能值得研究。为了识别糖尿病和动脉粥样硬化之外的更多研究不足的候选基因,作者通过整合现有的机器学习工具AMELIE自动化了手工方法。AMELIE搜索PubMed并基于文献和其他现有的关联评分查询的基因-疾病关系的强度。AMELIE还输出了一份相关的PubMed文章列表,供研究人员解析之前的研究(见图4D)。

作者首先验证了AMELIE是否偏好与Mantis-ML对某一疾病评分相似的基因集。作者检查了Mantis-ML中得分高(>0.9)的基因是否在AMELIE中排名靠前的基因中富集,并与Mantis-ML输出的随机基因样本相比较。与随机基因组相比,作者发现在AMELIE中青睐的高得分Mantis-ML基因的富集度大约是三倍,这表明Mantis-ML和AMELIE认为某些基因是有前途的领先指标(见图4E)。

图 5

作者通过BioWordVec测量的语义相似度,将疾病术语与ICD10代码进行匹配,从生物医学文献中挖掘的数百万个单词投影到200维欧几里得空间(见图5A)。通过设计的过滤标准以减少疾病术语和ICD10代码之间的语义相似性重新评估的次数,90%的疾病术语被验证。

为了评估Mantis-ML与UKB PheWAS之间的一致性,作者使用费舍尔精确检验评估了每个资源中排名最高的Mantis-ML基因(HPO、OT和GE的前5%)与在UKB PheWAS中达到基因组范围显著性(P < 10−8)的基因之间的重叠。作者发现,来自HPO和OT的Mantis-ML派生基因与它们相关的PheWAS对应性状显著重叠(见图5B)。相比之下,GEL派生的基因与相关的UKB PheWAS性状没有显著重叠,这是因为GEL强调的是儿科患者的数据,而这些数据在UKB中并不丰富。

作者探讨了Mantis-ML是否可以指导如何解释和优先考虑尚未达到统计显著性的高排名PheWAS基因结果。作者扩展了富集分析,以衡量一个性状的前5% Mantis-ML候选者与所有按其PheWAS显著性排名的基因之间的重叠,而不仅仅是那些达到基因组范围显著性的基因(见图5C)。

如图5D所示,随着过滤要求变得更严格,背景分析中排名较高的基因越来越多,随着n的增加中位百分位数从64%增加到100%。这可能是因为在较高的n值下,较少的ICD10编码映射到一个疾病术语。

基准测试

图 6

为了确定Mantis-ML 2.0如何辅助研究人员以及其他基因优先排序工具,作者将Mantis-ML 2.0与两个最近发布的工具PhenoApt和知识图分析平台(KGAP)进行了比较。Mantis-ML在13种中的14种疾病中的表现优于PhenoApt和KGAP,与PheWAS验证集中的更多基因重叠(见图6A)。当考虑所有UKB PheWAS命中时,排名靠前的Mantis-ML基因也显著更多地富集了排名靠前的PheWAS基因,超过了PhenoApt与KGAP(见图6B)。

作者还研究了这三种工具中哪一种更好地预测了随着遗传队列大小增加而获得更大显著性的基因。与同等大小的随机基因集的空模型相比,随着UKB队列大小从150,000增加到450,000,Mantis-ML 2.0成功地富集了样本而获得更高显著性的基因。PhenoApt在10个顶部百分位阈值中的8个表现类似,但在8个案例中表现不如Mantis-ML(见图6C)。总的来说,Mantis-ML 2.0在所有14种表型和所有检查的顶部百分位阈值中的表现均优于PhenoApt和KGAP(见图6D)。这些结果强调了Mantis-ML 2.0在识别在大型人类遗传研究中尚未统计明确的排名靠前的有前景的生物候选基因的能力。

编译 | 于洲

审稿 | 王建民

参考资料

Middleton L, Melas I, Vasavda C, et al. Phenome-wide identification of therapeutic genetic targets, leveraging knowledge graphs, graph neural networks, and UK Biobank data[J]. Science Advances, 2024, 10(19): eadj1424.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
腾讯云服务器利旧
云服务器(Cloud Virtual Machine,CVM)提供安全可靠的弹性计算服务。 您可以实时扩展或缩减计算资源,适应变化的业务需求,并只需按实际使用的资源计费。使用 CVM 可以极大降低您的软硬件采购成本,简化 IT 运维工作。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档