前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Nat. Biotechnol.| BioCypher推动生物医学知识表征大一统

Nat. Biotechnol.| BioCypher推动生物医学知识表征大一统

作者头像
DrugAI
发布2023-09-19 14:22:46
2770
发布2023-09-19 14:22:46
举报
文章被收录于专栏:DrugAI

编译 | 于洲

今天我们介绍由海德堡大学医学院的Sebastian Lobentanzer等学者发表在Nature Biotechnology上的工作。在所有研究人员之中,标准化的生物医学知识表征是一项难以克服的任务,它阻碍了许多计算方法的有效性。为了促进知识表征的协调和互操作性,该工作将知识图谱创建的框架标准化。本文提出的BioCypher实现了这一标准化,这是一个FAIR(可查找、可访问、可互操作、可重用)框架,可以透明地构建生物医学知识图谱,同时保留源数据的来源。将知识映射到生物医学本体有助于平衡协调、人类和机器可读性以及对非专业研究人员的易用性和可访问性的需求。本文展示了该框架在各种用例中的有用性,从维护特定于任务的知识存储,到生物医学领域之间的互操作性,再到为联邦学习按需构建特定于任务的知识图。

背景介绍

生物医学知识虽然日益丰富,但却分散在数百种资源中。例如,临床研究人员可能使用来自UniProtKB的蛋白质信息,来自COSMIC的遗传变异,来自IntAct的蛋白质相互作用,以及来自ClinicalTrials.gov的临床试验信息。将这些互补的数据集结合起来是详尽的生物医学研究的基本要求,因此激发了许多整合工作,以形成协调的知识图谱(Knowledge Graphs,KG),比如一种基于机器可读图结构的知识表征。每个主要来源的知识表征通过使用不同的标识符名称空间、粒度级别或许可在重组过程中带来许多现实问题。然而,直接对生物医学知识的表达进行标准化并不适合社会上多样化的研究任务,因此目前并不存在放之四海而皆准的方法。

这种异质性直接影响到知识表征的公平性:

可查找性:由于创建了许多KGs,因此找到最适合特定任务的KG是具有挑战性和耗时的。

可访问性:很少有可用的KG解决方案完全适合个人研究人员想要执行的任务。只有那些能够负担得起个人或整个团队多年开发时间的人才有可能创建定制的KG。较小的或非生物信息学实验室需要从公开可用的KGs中进行选择,这限制了定制化以及非公开数据的使用。有一些框架可以从头开始构建某些类型的KGs,但是对于本体子领域之外的研究人员来说,这些框架很难使用,并且通常具有严格的底层数据模型。除此之外,由于许可或维护原因,甚至特定于任务的知识图谱有时也需要由用户在本地构建,这需要大量的技术专长。

互操作性:由于上述原因,许多KGs是为特定的应用程序手动构建的,这非常费力,而且常常是冗余的,因为主要数据源在很大程度上重叠。对于下游用户来说,这使得KGs差别太大而难以比较或合并。

可重用性:为社区维护KGs是额外的工作,一旦维护停止,它们就会迅速恶化,从而导致可重用性和可再现性问题。为特定目的修改现有的、全面的KG是一个非常重要的过程,而且通常是手工过程,缺乏可再现性。

方法介绍

为了解决这些问题,本文提出了BioCypher,这是一个通过以下方式改进生物医学知识表征的软件:

  • 模块化:为了便于从重叠的主要资源中维护多个特定于任务的KGs,本文提出了一种模块化方法,允许以可重用的方式重新组合主要资源的单个数据“适配器”。这允许将维护工作委托给每个适配器的一个中心位置,而不必在每个单独的KG中维护主要资源。
  • 协调:为了从生物学的角度促进数据集的协调,本文建议使用本体映射(指生物概念的分层组织)。主要数据源可能以不同的方式表示类似的数据。BioCypher通过将不同的表示映射到相同的生物概念来协调生物医学数据,灵活地处理本体的多种技术实现。此外,投射到每个KG实体上的本体信息允许在下游分析中进行更灵活和信息丰富的查询。
  • 可再现性:通过以特定于项目的方式共享本体映射,可以更有效地再现用于特定任务的数据库。由于数据库本身的庞大规模往往禁止共享,因此BioCypher有助于创建特定于任务的数据库子集,以便与分析一起共享。广泛的自动化减少了开发时间和文件大小,同时还使共享数据集独立于数据库软件版本。
  • 可重用性和可访问性:研究软件的可持续性与社区的采用和贡献密切相关。BioCypher是作为开源软件开发的,应用了现代的持续集成和部署方法,从一开始就包括了一个多样化的研究人员和开发人员社区。这促进了端到端测试的优秀工作流程,其中包括科学数据的完整性。本文在宽松的MIT许可下运作,并为贡献者提供他们贡献的指导方针和行为准则。如下图所示,为了增加对社区的可访问性,本文使用开放标准创建用户友好的界面。这些接口与本体映射引入的生物学视角一起,提高了非生物信息学家的可用性。

软件实施

本文整合了一个一致和全面的生物医学本体——Biolink模型,以及一个广泛的生物医学标识资源目录和解析器——Bioregistry。和BioCypher一样,这两个项目都是开源和社区驱动的。Biolink是表示生物医学概念的基础,而Bioregistry为这些概念提供一致的词汇表以及标识符的验证。本文还促进本体论框架的交换、扩展和修改,以适应数据库特定的需求。BioCypher是作为Python库实现的,它为数据处理和本体操作提供了低代码访问点。BioCypher有助于决定如何表示知识并简化相应KG的创建,弥合了生物医学本体领域与数据库广泛应用于生物研究问题之间的差距。

BioCypher的翻译框架通过适配器(数据获取)和模式配置(图结构和本体映射)的组合简化了自定义KG的创建。在给定现有配置的情况下,构建特定于任务的KG只需要几分钟,而从头开始创建KG可以在几天内完成。这允许快速原型和自动化机器学习(ML)用于迭代KG结构以优化预测性能。尽管速度很快,在每一个KG中数百万个实体和关系的自动化端到端测试增加了对数据一致性的信任。

通过将KG构建过程抽象为模块化输入适配器的组合,BioCypher节省了开发人员维护由重叠的主要来源组成的集成资源的时间。其中这些整合资源中的一部分被迁移到BioCypher框架中,例如OmniPath、临床知识图谱(CKG)、CROssBAR v2、Bioteque以及依赖图KG。通过将这些知识集合映射到相同的本体框架上,BioCypher获得了不同生物医学领域之间的自动互操作性。

通过提供模块化的输出适配器,软件可以调整到KG用户的各种需求。Neo4j适配器提供了对广泛数据库的快速访问,以便从Jupyter notebook进行查询,并便于维护用于存储的大型知识集合。CSV编写器允许与其他知识管理服务(如KGX格式)进行交换。Python本地适配器(如稀疏矩阵或NetworkX格式)产生的知识表征可以立即在机器学习框架(如PyTorch Geometric)中以编程方式用于深度学习。

为了实现高性能,本文实现了提供直观查询接口的属性图数据库技术,例如Neo4j开发的Cypher图查询语言。它支持复杂和通用的查询,为丰富和高度交互的界面铺平了道路。例如,网络小部件和应用程序(如药物发现和重新定位https://crossbar.kansil.org和分析工作流https://drugst.one)允许非计算研究人员浏览和定制数据库,并将其插入标准管道。此外,结构化的知识表征促进了与现代自然语言处理应用程序(如GPT)的连接。Neo4j具有高度的可扩展性,并且可以与大规模、分布式、高性能计算基础设施的其他组件进行良好的交互。由于有了通用标准,工具可以跨项目共享,并在社区范围内使用,或者在基于云的服务中使用,以保存敏感的患者数据。

讨论

在标准化知识图谱和使生物医学数据存储更具互操作性方面,已经进行了许多尝试。它们可以分为三大类,代表了KG构建过程中不断增加的抽象层次:

  1. 集中维护的数据库包括面向任务的数据集合,如OmniPath或CKG。 它们是最不灵活的知识表征形式,通常绑定到特定的研究目的,并且高度依赖于它们的主要维护者来持续运行。 BioCypher减少了通常伴随此类资源而来的开发和维护开销,使特定任务的KG适用于规模较小且不太关注生物信息学的团队。
  2. 明确的标准格式或建模语言包括Biolink模型、BEL、GO-CAM、SBML、BioPAX和PSI-MI。它们的主要缺点是数据模型定义的刚性:要用其中一种语言表示数据,用户需要完全采用它。如果任务超出了语言的范围,用户需要寻找替代方案,或者在语言中引入新的特性,这可能是一个漫长的过程。此外,一些特性可能不兼容,因此,集中维护的语言定义从根本上是有限的。使用BioCypher,每种语言都可以作为特定知识图的基础,在框架内,这些语言可以自由透明地交换、修改、扩展和混合。
  3. KG框架提供了一种构建KG的方法,类似于BioCypher的想法。 然而,大多数都将自己与特定的标准格式或建模语言生态系统紧密联系在一起,从而继承了上面描述的许多限制。 然而,由于植根于语义Web技术,它是针对知识表征专家的,需要相当多的生物信息学和本体专业知识。

结论

生物医学知识正以不断增长的速度积累,利用先验知识与生物医学大数据相结合的机器学习工具正获得越来越多的关注,例如,复杂的深度神经架构可以预测组合扰动或尝试诊断罕见疾病。然而,在这些框架中使用的知识表征来自于关于包含和结构的任意决定,并且手动实现,因此既没有针对手头的任务进行优化,也没有测试替代方案或关于表示的鲁棒性。BioCypher为KG标准化提供了一个及时的框架,以提高先验知识来源和下游计算分析方法的互操作性。本文通过增加非生物信息学小组和小型实验室的可访问性来促进知识表征的公平性,并通过补充材料中的示例展示了生物密码的主要优势。

案例研究

在接下来的部分中,本文将在实际示例中说明BioCypher的各种设计方面的有用性。对于这些案例研究中的大多数,有些已经实际实现,而有些仍然是草案或在早期阶段进行中的工作。包括公开代码在内的实际示例为模块化、肿瘤平台、网络扩展、子图提取、嵌入、开放靶标以及联邦学习。

模块化

UniProt是生物信息学的重要资源。本文构建了一个适配器以编程方式访问UniProt数据并将其缓存到本地,通过适配器来提供方便的访问和数据字段概览。这样,可以很容易地将UniProt数据与其他资源进行集成。本文还构建了蛋白质相互作用数据源的适配器,包括IntAct、BioGRID和STRING,并将它们集成到一个知识图中。适配器和示例脚本在https://github.com/HUBioDataLab/CROssBAR-BioCypher-Migration上可以找到。

肿瘤平台

本文正在建立一个平台,可以告知医生癌症患者的可操作基因变异。手动发现这些变异需要查询许多数据库, 然后进行结果的管理,这是一个漫长的过程。然而,使用 BioCypher 将数据源整合到一个知识图谱中,将数据集映射到本体类可以最大限度地减少手工管理。BioCypher的正式模式配置允许简单、长期的维护。这个项目的代码可以在https://github.com/oncodash/oncodashkb上找到。

网络扩展

BioCypher旨在将存储优化的数据库模式转换为面向分析的知识图。下图演示了将Open Targets平台衍生的与交互相关的图数据库转换为BioCypher知识图的简化功能。原始数据库包含900万个节点和4300万条边。经过BioCypher处理后,图表减少到70万个节点和260万条边,压缩比例超过10倍,但信息损失很小。缩减主要是通过删除不相关信息和语义抽象实现的。

BioCypher迁移速度快,只需15分钟,并进行了端到端测试。在迁移过程中,Open Targets图中出现了几个不一致,这部分源于输入数据中的错误,说明了人工检查可能会漏掉这类错误。BioCypher生成的知识图包含交互的生物学上下文信息,可用于灵活的查询。它同时保留了信息来源和作者归属,这对评估置信度和归属至关重要。此迁移的代码可以在

https://github.com/saezlab/OTAR-BioCypher中获取。

子图提取

对于研究科学家的许多实际工作流程来说,完整的知识图不是必需的。例如,在蛋白质组分析的上下文中,用户只需要使用CKG中的文献连接来对差异丰度蛋白的列表进行上下文化,使遗传学和临床参数的大部分信息变得不必要。使用BioCypher,可以快速轻松地创建整个知识集合的子集,确保不包含敏感、无关或未经许可的数据。分析人员仅需要在BioCypher配置中选择相关的信息(例如蛋白质、疾病和文章)及其关系。然后,BioCypher查询原始知识图并提取所需的知识,保留所有来源信息,产生一组较小的数据集以供共享。此任务的代码可以在https://github.com/saezlab/CKG-BioCypher/tree/subset上找到。

嵌入

BioCypher可以根据用户选择的实体和关系从大型知识图谱中提取子图。然后可以使用提取的子图来生成特定于任务的嵌入。作为一个例子,作者从临床知识图中选择了患者-蛋白质关联和生物学途径。所得到的嵌入用于探索患者的相似性。BioCypher能够高效地探索和提取特定于任务的知识图谱上下文,用于下游分析,如生成知识图谱嵌入。

开放靶标

开放靶标平台提供关于疾病和药物靶标的公开数据。数据以表格形式出现,并使用BioCypher适配器转换为知识图。适配器允许频繁地重建和定制知识图。将数据映射到中央本体可以与其他数据集(如UniProt和癌症依赖关系图)集成。仅用8行代码就添加了UniProt关于人类蛋白质的信息。依赖性图中的基因重要性和细胞系数据也很容易添加。

联邦学习

BioCypher通过提供将输入数据映射到本体的共享蓝图来支持联邦机器学习。它允许多方在分散的私人数据上训练共享模型。两个试点项目展示了BioCypher的实用性:一个是Care-for-Rare,它整合来自不同来源的生物医学数据以进行罕见疾病诊断;另一个是MeDaX,它开发使用知识图谱探索生物医学数据的方法。BiCypher为本地数据库提供构建指令,作为没有敏感数据的模式配置。在每个位置,从公共数据创建一个特定于任务的KG,并使用模式与敏感数据集成。这确保了机器学习算法具有完全相同的KG结构,防止联邦学习中的数据泄漏。

参考资料

Lobentanzer, S., Aloy, P., Baumbach, J. et al. Democratizing knowledge representation with BioCypher. Nat Biotechnol (2023).

https://doi.org/10.1038/s41587-023-01848-y

代码

https://biocypher.org

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-07-01 00:01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档