Nat. Nanotechnol. | 基于Transformer神经网络的脂质纳米颗粒智能设计

DrugAI

发布于 2026-01-06 11:44:02

2850

文章被收录于专栏：DrugAIDrugAI

DRUGONE

RNA药物的兴起主要得益于脂质纳米颗粒（LNPs）。LNP的有效性取决于其脂质成分及其比例，但实验优化过程十分繁琐且无法覆盖完整的设计空间。研究人员提出了一种深度学习方法，能够整合LNP的多组分与多模态特征，并以端到端方式预测其性能。研究人员建立了目前最大的LNP数据集之一（LANCE），并据此训练了深度学习模型——COMET。这一基于Transformer的神经网络不仅能准确预测LNP的转染效率，还能够扩展到非常规配方，如双可电离脂质和聚合物材料。COMET还能在外部细胞系中预测LNP性能，并在小规模训练数据下预测LNP冻干过程中的稳定性。实验验证表明，COMET能够识别出在体内外均表现出较强蛋白表达的LNP，加速了核酸治疗药物的开发，并展现出在治疗与制造领域的广阔应用潜力。

药物研发过程中，大多数活性成分需要与多种辅料共同配制成药物制剂，平均每种制剂包含约八种辅料。成分与比例的多样性使得配方设计的搜索空间极其庞大，即使是高通量筛选手段也难以应对复杂度的指数级增长。

深度学习作为能够处理多因素数据的人工智能方法，在药物发现与材料科学中已取得广泛应用。然而，其在多组分药物制剂中的应用仍十分有限。RNA类脂质纳米颗粒是极具前景的药物递送载体，其成功应用于新冠疫苗进一步凸显了其重要性。LNP由四类脂质组成，每一类都对RNA递送至关重要，其功能不仅依赖于脂质的化学结构，还取决于它们之间的摩尔比例。这意味着在不同应用场景下，配方需要重新优化。

已有部分研究尝试将机器学习引入药物递送领域，但大多关注单一分子（如可电离脂质）的结构特征。这些方法虽能发现新的候选脂质，却无法全面揭示LNP整体配方的规律，也未能充分利用实验产生的原始数据。因此，研究人员提出了一种能够同时表示完整配方并具备跨场景泛化能力的深度学习框架。

结果

LNP设计与COMET模型

COMET将脂质分子结构、摩尔百分比以及配方参数（如氮/磷比、混合比例）转化为模型输入。模型采用类似语言模型的Transformer结构，把每一类成分及配方参数视为离散“词元”，通过自注意力机制整合信息并生成整体预测。与传统回归不同，COMET使用排序学习目标来提升对转染效率的区分能力，并辅以噪声增强、梯度对齐和集成学习等策略以增强鲁棒性。

LANCE数据集

为训练COMET，研究人员开发了高通量合成与检测流程，构建了LANCE数据集。该数据集包含3000余种LNP配方，覆盖不同脂质种类、合成条件和摩尔比例，转染效率以萤光素酶信号量化并归一化。

配方因素对LNP效率的影响

实验显示，可电离脂质的选择对转染效率影响显著。例如，CKK-E12和C12-200优于DLin-MC3-DMA；辅脂质（如DOPE）、甾醇类（胆固醇或β-谷甾醇）以及PEG脂质也对效率有关键作用。摩尔比例和合成条件（如水/有机相比例）在不同配方中表现出差异化效果，提示需要针对具体场景进行优化。

COMET性能评估

在随机测试集中，COMET表现出高相关性（Spearman与Pearson系数均>0.86）。在更贴近药物发现场景的“命中测试”中，COMET依然保持较强预测能力，并能以近80%的准确率将高效LNP分类到前半区。通过多任务学习和模型集成，COMET的性能进一步提升，并且在扰动实验中表现出对结构—活性关系的敏感性。