
表型药物筛选长期受到化学空间庞大规模和实验流程扩展难度的限制。为克服这些障碍,研究人员开发了多种计算方法以优先筛选候选化合物,但现有方法往往存在局限:要么依赖泛化能力不足的单任务模型,要么基于难以优化的启发式基因组代理。
针对上述问题,来自Cellarity公司、亥姆霍兹联合会以及麻省理工学院的研究团队于2025年10月23日在《Science》期刊上发表题为“Active learning framework leveraging transcriptomics identifies modulators of disease phenotypes”的研究论文。

文章提出一种主动深度学习框架,利用组学数据实现可扩展、可优化的化合物识别,从而发现能够诱导复杂表型的分子。该通用算法在传统召回率指标上优于当前最先进的模型,在两项血液学发现研究中实现了13至17倍的表型命中率提升。该框架为表型驱动的化合物识别提供了一种高效途径,展现出广泛的应用潜力,可显著加速药物发现与开发进程。
背景
表型药物发现(Phenotypic Drug Discovery, PDD)的目标是在能真实反映疾病特征的模型中调控与疾病相关的行为。通过关注细胞表型特征,表型筛选能够直接考虑靶点内与靶点外分子反应的综合效应,从而优化期望的生物学结果。然而,这一范式受到检测复杂度与可扩展性之间权衡的制约。高分辨率的检测系统虽可增强临床可转化性,但吞吐量低且成本高;相反,简单的表型测量与模型组合虽然支持高通量且成本较低的筛选(HTS),却往往牺牲临床相关性。为解决这一困境,亟需开发能够高效筛选出具有临床活性的化合物的小分子优先级评估策略。
多个研究团队提出了利用人工智能(AI)进行化合物排序的框架。通过任务特定模型成功发现了新的抗生素和抗衰老药物。这些模型相较于传统筛选提高了命中率,但其局限在于每当更换目标表型时,都需要在大规模数据集上重新训练。为克服任务特异性问题,研究者提出使用化学扰动诱导的组学特征代表多种表型结果。此类方法基于化合物诱导与期望表型相关的组学特征(例如基因表达谱)的概率来进行优先排序。早期的实现结果在小鼠表型筛选中显示出潜力。然而,要真正推动该方法在药物发现中的广泛应用,还需要进行严格的评估,即在真实的药物筛选环境中,将模型排名靠前的化合物与随机选择的化合物进行对比,以验证其实际影响。现有框架的关键特征仍需改进。例如,当前基因表达优先化方法多依赖次优启发式算法,这类方法无法通过实验反馈进一步优化。另一方面,基于组学的预测的成功取决于输入特征能否准确代表目标表型。现有方法往往从观察性关联中推断基因表达特征,但这可能无法转化至体外疾病模型中,限制了其实用性。此外,可获得的实验性组学数据仍十分有限,尽管有研究提出可通过化学结构直接预测虚拟特征模型,但其可靠性仍需验证。
方法
用于实现表型药物发现的闭环预测框架
作者提出的表型药物发现框架的核心是一个闭环主动强化学习(ARL)流程,用于筛选能够调控目标表型的化合物(图1)。具体步骤如下,1)目标特征识别。分析临床数据集,以确定与目标细胞转变相关的转录特征,并将其与表型试验进行校准,确保该特征的诱导与目标表型呈正相关。2)深度学习表型预测。开发了深度学习模型DrugReflector,用于预测最有可能诱导该目标特征的化合物。3)实验筛选与验证。对预测出的化合物进行实验性表型筛选,并在多个供体样本中验证活性化合物。这些被验证的命中化合物(hits)构成了框架的主要输出,可用于后续药物开发。4)闭环优化。引入主动特征学习,利用hit与非hit化合物的联合转录组和表型测量数据进行闭环反馈,从而不断优化输入特征并提升命中率。

图1 表型药物发现框架
用于化合物优先排序的深度学习框架
DrugReflector是一个由三个MLP分类器组成的集成模型,用于将扰动诱导的组学特征与其对应的化合物匹配。训练数据来自Connectivity Map(CMap)的一个高质量子集,经过筛选以确保化合物的可追溯性、特征的可靠性以及生物覆盖面的广泛性(图2A)。

图2 基于深度学习的表型虚拟筛选方法
结果
DrugReflector性能评估
将DrugReflector与四种现有的基因特征-化合物匹配方法进行了系统性基准测试,以前1%化合物召回率作为性能指标。首先,在CMap Touchstone数据集上评估模型性能,该数据集包含在9种细胞系中测试的1000种化合物。结果显示,DrugReflector在所有算法中表现最佳,其平均召回率相较于Dr.Insight提升超过15倍,较SigCom提升15%(图2B)。其次,在sciPlex3数据集上比较了五种算法的性能,该数据集包含188种化合物,在3种CMap癌细胞系中测量。结果再次表明,DrugReflector优于所有其他算法,其平均召回率较Dr.Insight和SigCom分别提升66%和108%。在训练数据中出现的癌细胞系上,DrugReflector表现出最高性能,平均召回率较Dr.Insight提高323%,较SigCom提高73%。在未出现在训练数据中的原代细胞系上,DrugReflector同样取得了最高召回率,较Dr.Insight和SigCom分别提高194%和30%,尽管整体召回水平低于癌细胞系(图2B-C)。
DrugReflector识别出可诱导巨核与红系谱系的化合物
作者选择了人源CD34⁺造血干/祖细胞(HSPCs)作为筛选对象,利用本研究提出的框架,调控巨核细胞与红系祖细胞的谱系分化命运。为了表征参与巨核与红系谱系分化的细胞状态,作者分析了之前生成的一份CITE-seq数据集。该数据集整合了RNA与蛋白表达数据,涵盖了来自4位健康供体的原代HSPCs的转录组和134种细胞表面蛋白标志物。样本在10天的培养时间内,分5个时间点采集(图3A)。进一步确认了由RNA定义的细胞类型在巨核与红系谱系上均表达预期的表面标志物(图3B-D)。

图3 基于单细胞多组学的表型检测体系,用于捕捉人源原代细胞中多谱系造血分化过程。
实验计算了巨核/红系祖细胞(MEP)与多能祖细胞(MPC)或红系谱系(Ery)之间的作者自定义量化分数v-score,并将其输入DrugReflector模型,获得优先排序的化合物清单以供筛选。随后,从模型输出中选取排名靠前的化合物,以评估其诱导目标表型的能力。结果如图3E-H所示,基于转录组的ML优先筛选策略相比随机筛选和传统方法,能大幅提高表型筛选的效率和成功率,且DrugReflector方法在不同细胞谱系、化合物库及供体间具有良好的可重复性与泛化性。
配对转录组和表型测量实现闭环主动特征学习
受主动强化学习(ARL)的启发,假设可以利用配对的表型和转录组测量来优化与表型相关的输入组学特征。总体框架是从配对的表型和转录组数据中学习signature,并用它更新原始输入signature,学习signature与原始signature之间的差异可视为梯度,而策略更新中采取的步长由一个可调节参数控制(图4A)。

图4 通过主动特征学习结合配对转录组与表型读出,实现表型命中率提升。
使用优化后的signature作为输入,对DrugReflector排序所有化合物并测试96种新优先化合物(此前未筛选过)。在通过质控的85种化合物中,识别出22种新hit化合物(图4D)。对比原始与优化后筛选的hit化合物排名,结果显示优化signature更能优先排列hit化合物(图4E)。进一步绘制了命中率随排名阈值变化曲线,显示前100个化合物的命中率约提升2倍,500个化合物后趋于平稳(图4F)。
化学诱导巨核谱系分化机制的表征
为了理解不同化合物在表型诱导上的差异,分析了各条件和时间点相对于DMSO的细胞类型特异差异表达谱,重点关注了扰动后24小时的HSPCs。在此时间点,通过前两个主成分(PC1和PC2)观察到五个主要扰动簇,分别为不活跃簇(不诱导巨核)、一个抑制巨核分化的单一化合物、高度活跃的巨核分化化合物簇以及两个中度活跃化合物簇,沿PC2分离(图5A)。

图5 解析化学诱导巨核生成的机制
为了探讨化学诱导巨核生成的驱动因素,在巨核谱系中构建了伪时间轨迹,涵盖转录验证实验中的所有细胞(图5B)。分析结果显示,巨核分化与发育相关的基因集在伪时间维度上于所有化合物类别中表现出一致的表达模式(图5C-D),表明巨核分化遵循单一程序,而不受具体化学扰动类型的影响。调节脂质代谢的化合物在所有时间点和细胞类型中均呈现一致作用模式,但效果更为显著(图5E)。这些结果揭示了调控巨核谱系分化的多重机制,HMGCR被鉴定为潜在的巨核谱系诱导靶点,KDR等多种酪氨酸激酶的抑制可能是化学扰动下强效诱导巨核生成的关键驱动力。
总结
本文提出一个闭环主动强化(ARL)框架,用于疾病表型预测与药物发现,该框架在多种疾病背景下具有广泛的应用潜力。该方法以细胞为治疗靶点,通过组学数据将疾病生物学与化学扰动相连接,从而显著提升了表型筛选的命中率。研究证明,在人类造血祖细胞中调控胆固醇生物合成即可诱导巨核命运。同时,促进巨核谱系偏向需要抑制多种酪氨酸激酶。该框架已成功用于识别镰刀型细胞贫血症和骨髓纤维化中的可药物靶点。随着越来越多的公共单细胞组学数据集和单细胞扰动签名的发布,这一范式有望被广泛应用,通过利用现有细胞图谱为多种疾病生成初始靶标签名,从而推动AI驱动的表型药物发现进入新阶段。
参考链接:
https://doi.org/10.1126/science.adi8577
--------- End ---------