期刊: bioRxiv 链接: https://doi.org/10.1101/2024.12.10.627863 代码: https://github.com/ram-compbio/CANDO 补充数据: http://compbio.buffalo.edu/data/mc_cando_benchmarking2 简介: 该论文聚焦药物发现平台的基准测试,创新之处在于修订了 CANDO 多尺度治疗发现平台的基准测试协议,使其与最佳实践高度对齐,解决了当前领域基准测试方法不统一的问题。研究通过优化 CANDO 平台的关键参数(如相似度列表 cutoff 和化合物 - 蛋白质相互作用评分类型),并采用新的基准测试协议(基于共识评分协议评估最终预测列表,使用 "留一法")进行评估。实验使用了来自 CTD 和 TTD 的药物 - 适应症映射数据,结果显示 CANDO 在 TTD 映射中,11.4%-12.1% 的已知药物能进入对应疾病 / 适应症的前 10 名化合物列表,且性能与适应症相关药物数量、适应症内化学相似性等因素存在相关性,TTD 映射下的表现优于 CTD。该论文为药物发现平台的标准化评估提供了重要参考,提升了 CANDO 平台的性能和可靠性。

在药物研发成本持续攀升(单药研发成本高达9.85亿美元至200亿美元)且失败率居高不下的背景下,计算药物发现平台的效能评估成为推动领域发展的关键环节。由Melissa Van Norden等人完成的研究《Strategies for robust, accurate, and generalizable benchmarking of drug discovery platforms》,以其自主研发的CANDO(Computational Analysis of Novel Drug Opportunities)多尺度治疗发现平台为研究对象,系统阐述了基准测试协议的优化策略,为药物发现平台的标准化评估提供了重要参考。
药物发现平台的基准测试旨在通过科学方法评估其预测效能,进而指导平台优化、预测成功率估算及特定场景下的平台选择。当前领域内存在的突出问题是:基准测试方法碎片化,数据来源多样(如静态数据集Cdataset与动态数据库DrugBank并存),评估指标差异显著(从AUROC到病例研究均有应用),导致平台间的性能比较缺乏统一标准。
CANDO平台的设计基于"多靶点相互作用特征相似的药物具有相似生物学效应"这一核心假设,通过计算化合物间的相互作用特征相似度生成预测列表。其原始基准测试协议聚焦于药物-药物相似度列表的质量评估,而本研究的核心创新在于将评估重心转向基于共识评分协议的最终预测结果,使基准测试更贴近实际药物发现场景。

图1. CANDO 预测和基准测试流程示意图。该图展示了 CANDO 的主要预测流程和基准测试流程。左侧为主要预测流程,涉及从 PDB 和 I-TASSER 获取蛋白质结构及模型,通过 COACH 预测结合位点,结合 RDKit 的化合物指纹和 BANDOCK 协议计算化合物 - 蛋白质相互作用分数,生成相互作用特征,再基于 CTD 或 TTD 的药物 - 适应症映射生成药物 - 药物特征相似性矩阵,最终通过共识协议生成候选药物预测。右侧为新基准测试流程,采用 “留一法”,将某一药物从适应症中排除后,基于剩余药物预测其排名,以评估平台性能。两者的区别在于,原始基准测试关注单个相似性列表,而新协议评估最终的共识列表。
研究采用的药物-适应症映射数据来自CTD(Comparative Toxicogenomics Database)和TTD(Therapeutic Targets Database),其中CTD包含2449种获批药物与2257种适应症的22771个关联,TTD包含1810种药物与535种适应症的1977个关联,且仅纳入至少关联两种药物的适应症(CTD 1595种,TTD 249种)用于基准测试。
化合物-蛋白质相互作用特征的计算是CANDO平台的核心环节,研究测试了三种评分方式:(1)仅基于化合物的C评分;(2)化合物与蛋白质结合位点的CxP评分(化学相似度与结合位点相似度的乘积);(3)百分位化合物-蛋白质的dCxP评分。通过参数优化,CxP评分因在多数指标中表现最优且无最差表现被选定为最终评分方式。
与原始协议评估单个药物的相似度列表不同,新协议采用"留一法"评估共识预测结果:对每种适应症,依次排除一种关联药物,基于剩余药物的相似度列表生成共识评分(综合化合物在列表中的出现次数与平均排名),再评估被排除药物在预测列表中的排名。
核心评估指标包括:(1)新适应症准确率(nIA),即被排除药物进入前10、25、100名的比例及平均(nAIA);(2)新归一化折损累积增益(nNDCG),通过公式()计算,更强调早期发现的价值。
研究对两个关键参数进行优化:(1)相似度列表 cutoff(共识协议考虑的相似化合物数量),通过在CTD和TTD子集上测试所有可能值,确定最优范围为6-31(nAIA)和7-13(nNDCG);(2)交互评分类型,如前所述选定CxP评分。优化过程采用3:7的数据拆分策略,避免评估偏倚。

图2. 相似度列表 cutoff 对基准测试性能的影响。该图呈现了不同相似度列表 cutoff(即共识协议考虑的相似化合物数量)对 CANDO 性能的影响,评估指标包括 nAIA 和 nNDCG,数据来源于 CTD 和 TTD 映射。图 A 和 B 展示了 cutoff 值 up to 1810 时的性能变化,图 C 和 D 放大了 cutoff 值 1-50 的范围,图 E 和 F 对比了各指标的最大值与随机对照,图 G 列出了最优 cutoff 值。结果显示,最优 cutoff 值因指标和映射而异,nAIA 的最优值为 6-31,nNDCG 为 7-13,且 TTD 映射下的性能优于 CTD,最优性能仅需考虑不到 2% 的化合物。
在优化参数下,CANDO平台表现显著优于随机对照:CTD映射中,7.3%-7.4%的已知药物进入对应适应症前10名,19.0%-21.1%进入前100名;TTD映射中,这两个比例分别为11.4%-12.1%和29.9%-31.0%。nNDCG指标同样显示优势,如TTD前10的nNDCG为0.064-0.068,是随机对照的10倍以上。

图3. 预测能力评估及相关影响因素。该图分为两部分,A 和 B 展示了优化参数后 CANDO 的性能,以 nAIA 和 nNDCG 为指标,对比了 CTD 和 TTD 映射在不同排名 cutoff 下的表现,显示 CANDO 显著优于随机对照,且 TTD 映射表现更佳。C-H 则分析了影响性能的因素,包括适应症关联药物数量(C-D)、原始基准测试指标 IA(E-F)、适应症内药物化学相似性(G-H),通过散点图和排名相关性分析,发现三者均与 nIA 呈正相关,其中 IA 的相关性最强,化学相似性次之,药物数量的相关性在超过 5 种后减弱。
TTD映射下的平台表现始终优于CTD,即使在共有的191种适应症中,TTD的前10 nAIA(9.3%)仍高于CTD(6.5%)。这种差异可能源于:TTD更严格的纳入标准(仅FDA获批关联)、更少的总药物数量(降低竞争压力)、以及包含更多"易预测"适应症(如麻醉、避孕)。典型案例显示,恩杂鲁胺在前列腺癌适应症中的排名从CTD的44位提升至TTD的7位,因TTD纳入的关联药物更具特异性。

图 4:药物 - 适应症映射对性能的影响。该图比较了 CTD 和 TTD 映射下 CANDO 的性能差异。A 和 B 展示了共有的 191 种适应症在 top10 和 top100 cutoff 下的 nIA 差异,显示 CTD 在更多适应症上表现更好,但 TTD 的优势幅度更大。C-E 对比了 576 个共有的药物 - 适应症关联在两种映射中的排名,发现 359 个关联在 TTD 中排名更优,且 TTD 中药物进入 top100 的比例更高。结果表明,TTD 映射的整体性能更优,部分原因是其包含 “更容易预测” 的适应症,但即使在共有适应症中仍保持优势。
本研究的核心贡献在于建立了一套兼顾稳健性、准确性与可推广性的基准测试框架,其方法论创新体现在:将评估对象从中间结果(相似度列表)转向最终产出(共识预测),通过多参数优化与多因素分析提升评估深度,对比不同数据源揭示基准测试的敏感性。
对于药物发现领域,研究结果为平台优化提供了明确方向:优先提升高化学相似性适应症的预测精度,合理控制用于共识预测的药物数量,重视数据源质量对评估结果的影响。
未来研究可进一步拓展至跨平台头对头基准测试,推动领域标准化评估体系的建立。正如研究指出,高质量的基准测试不仅能提升单个平台的效能,更能保障整个领域的技术可靠性与发展质量。