Nat. Commun. | Flexynesis：面向精准肿瘤学的多组学深度学习整合工具包

DrugAI

发布于 2026-01-06 12:41:10

1660

文章被收录于专栏：DrugAIDrugAI

DRUGONE

精准肿瘤学中的决策依赖于多模态分子信息的整合，但现有大多数基于深度学习的多组学整合方法缺乏透明性、模块化和可部署性，且通常局限于狭窄的任务范围。研究人员提出了 Flexynesis，一个端到端的深度学习工具包，支持数据预处理、特征选择、超参数优化和标记物发现。用户可在统一的接口下选择深度学习架构或经典机器学习方法，执行回归、分类和生存分析等任务，既可单任务训练，也支持多任务建模。研究人员展示了 Flexynesis 在药物反应预测、癌症亚型建模和生存分析等多种场景中的应用潜力。该工具已通过 PyPI、Guix、Bioconda 和 Galaxy Server 提供，降低了临床和前临床研究中使用深度学习整合多组学数据的门槛，使缺乏深度学习经验的研究者也能便捷使用。

癌症是一类复杂疾病，其发生与基因组异常紧密相关，涉及细胞死亡抵抗、免疫逃逸、组织侵袭及持续增殖信号等多种特征。与罕见单基因疾病不同，癌症等复杂疾病需要理解多个细胞调控层之间的交互关系，因此需要跨转录组、表观组、蛋白质组、基因组、代谢组和微生物组等层面的多组学整合。

目前，已有多项国际计划构建了大规模多组学数据库（如 TCGA、CCLE），为癌症及其他复杂疾病研究提供了丰富的分子数据。然而，现有的多组学整合工具存在诸多限制：

缺乏可复用性和适配性，很多研究仅提供零散脚本，难以在不同场景中复现；
缺少标准化操作流程，例如数据清理、特征选择与超参数优化；
功能局限，往往仅支持分类、回归或生存建模中的单一任务；
在某些场景下，经典机器学习（如 SVM、随机森林）甚至优于深度学习，但缺乏统一平台进行系统比较。

针对这些问题，研究人员开发了 Flexynesis ——一个灵活、模块化且可扩展的工具包，能够系统化支持多组学整合任务。

结果

单任务建模

研究人员展示了 Flexynesis 在三类任务上的应用：

药物反应预测（回归）：利用 CCLE 数据训练模型，预测拉帕替尼和塞卢美替尼的药物敏感性，在独立的 GDSC 数据集中取得了高度一致的预测效果。
癌症亚型分类：在多个 TCGA 队列中，Flexynesis 使用基因表达和甲基化数据高精度预测微卫星不稳定性（MSI）状态，即使不依赖突变数据，AUC 仍达 0.98。
生存分析：在低级别胶质瘤（LGG）与胶质母细胞瘤（GBM）患者数据上，模型基于 Cox 损失函数预测生存风险，结果显示高低风险组在 Kaplan-Meier 生存曲线上显著分离。

多任务建模

Flexynesis 支持同时预测多个临床变量。在转移性乳腺癌队列（METABRIC）中，研究人员分别建立了：

仅预测亚型标签的模型；
仅预测化疗状态的模型；
同时预测亚型与化疗状态的多任务模型。

结果显示，多任务模型能够在同一嵌入空间中清晰区分两个变量，提高了对临床特征的整体表征能力。

同时处理多个临床变量

在 LGG 与 GBM 队列中，研究人员同时预测年龄、组织学亚型和生存结局，模型嵌入结果能够层次化地反映三者关系，并识别出共同关键基因（如 IDH1、EGFR 等），验证了 Flexynesis 在多变量综合预测中的价值。

无监督与跨模态学习

Flexynesis 还支持无监督学习与跨模态预测：

无监督聚类：在 21 种癌症类型的 TCGA 数据中，Flexynesis 成功区分不同癌症类型，调整互信息分数达 0.78。
跨模态预测：利用 DepMap 数据，Flexynesis 将基因表达与蛋白序列嵌入结合，预测基因敲除依赖性得分，性能优于单一模态输入。

模型微调与药物反应标记物发现

研究人员表明，Flexynesis 可通过小样本微调显著提升跨队列预测性能。例如，在 TCGA 肿瘤样本到 CCLE 细胞系的迁移任务中，F1 分数由 0.16 提升至 0.8。

此外，Flexynesis 内置标记物发现模块，能够识别与药物反应相关的基因标记物。对于 8 种药物中的 6 种，模型成功捕捉到已知的临床可操作标记物，同时强调 RNA 表达与突变联合使用能显著提高预测性能。

系统化基准测试

研究人员设计了 14 个任务、222 个实验，比较不同模型架构、融合方式和调优策略。结果显示：

深度学习与经典方法性能相近，具体选择取决于任务；
不同融合策略（早期/中期）差异不显著；
微调在数据分布差异较大时更具优势；
在图神经网络中，SAGE 卷积方法略优于其他选项。

讨论

研究人员提出的 Flexynesis 并非全新的深度学习算法，而是一个将多种现有组件整合到统一框架中的工具包，核心贡献在于：

用户体验提升 ——标准化数据清理、特征选择、超参数优化与模型评估流程。
灵活性与适配性 ——支持多模态输入、多任务建模、监督与无监督学习、跨模态预测。
普适性 ——不仅适用于多组学数据，还可处理其他表格型数据。
可及性 ——开源发布，提供文档、示例数据和基准测试管道，方便研究人员快速上手。

虽然深度学习在部分场景中未必优于经典方法，但其在处理多任务、缺失标签、跨模态学习和迁移学习中的优势，使其在临床多组学研究中具备广阔前景。随着多组学测序成本下降与规模提升，Flexynesis 将进一步推动精准肿瘤学与复杂疾病研究的发展。

整理 | DrugOne团队

参考资料

Uyar, B., Savchyn, T., Naghsh Nilchi, A. et al. Flexynesis: A deep learning toolkit for bulk multi-omics data integration for precision oncology and beyond. Nat Commun 16, 8261 (2025).

https://doi.org/10.1038/s41467-025-63688-5

内容为【DrugOne】公众号原创｜转载请注明来源

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-09-14，如有侵权请联系 cloudcommunity@tencent.com 删除

深度学习