基于自下而上策略的超大化学空间先导化合物发现：BRD4（BD1）靶点的验证与启示

用户1151118

发布于 2026-01-08 13:04:31

240

A Bottom-Up Approach to Find Lead Compounds in Expansive Chemical Spaces

期刊: Communications Chemistry 链接: https://doi.org/10.1038/s42004-025-01610-2 简介: 该论文提出了一种创新的自下而上策略，用于在庞大的化学空间中发现先导化合物，其创新点在于通过系统化探索片段空间再挖掘按需化学库的潜力区域，解决了传统方法在超大化学库中计算成本过高的问题。该方法分为探索和利用两个阶段，先穷尽探索片段级化学空间以识别高潜力片段，再基于这些片段在超大化学库中生长出药物级分子，并通过层级化计算方法筛选。实验以 BRD4（BD1）为靶点，在两种常见药物发现场景中验证了该策略，使用 Enamine REAL 数据库、ZINC20 等数据集，成功发现了 19 个新型结合剂，部分化合物的效价与成熟候选药物相当且具有较高化学多样性。该论文证明了这种自下而上策略在高效探索超大化学空间、发现高质量先导化合物方面的有效性和实用性。

在药物发现领域，随着按需合成化学库的规模突破万亿级，传统高通量筛选与虚拟筛选方法面临着计算成本剧增、筛选效率低下的严峻挑战。近期，发表于《Communications Chemistry》的研究论文《A bottom-up approach to find lead compounds in expansive chemical spaces》提出了一种创新的自下而上策略，通过系统化探索片段空间与靶向挖掘超大化学库的结合，成功实现了对BRD4（BD1）靶点新型结合剂的高效发现，为解决超大化学空间导航难题提供了重要范式。

研究背景与科学问题

药物发现始于"苗头化合物"（hit）的识别，经漫长优化后发展为候选药物。大型制药企业的高通量筛选（HTS）库虽含数百万化合物，但与万亿级按需化学库相比相形见绌。这些超大化学库理论上可提供更多样、更高质量的hit，甚至直接作为类先导化合物起点，但其核心挑战在于缺乏能高效导航的计算工具。

2010年代中期，药物发现常用化学库规模多在10^5至10^6化合物之间，而十亿级按需库的出现显著拓展了可用化学物质范围。尽管保持健康化学多样性的超大库能提高发现高亲和力类药配体的概率，但枚举、准备、导航和评估这些空间的计算成本已趋 prohibitive。近十年高通量虚拟筛选（VS）虽有进展，但对整个超大库进行 brute-force对接既不具可扩展性，也无法适应其增长速度。

现有方法中，机器学习加速对接依赖对接评分函数准确性，且需将化学空间枚举为传统规模的片段；生成模型则常提出合成不可行分子，结合构象不可靠，也无法提升对接准确性。为此，研究团队提出一种整合穷尽探索与synthon-based策略优势的自下而上方法，无需依赖特定构建模块，可适用于任何化学库。

方法设计：层级化计算框架与双阶段探索策略

该方法核心分为探索与利用两个阶段，通过层级化计算方法平衡准确性与通量，仅让高分化合物进入下一阶段，从而减少候选分子数量与资源消耗。

该图为自下而上探索庞大化学空间的示意图。低分子量化学空间（底部）的分子数量较少，可进行系统探索。在该空间中发现的有潜力的命中化合物，标志着化学空间中的优势区域，通过从庞大的按需化合物库中枚举以骨架为中心的库（彩色线条）来利用这些区域。对这些聚焦库进行虚拟筛选，可识别出有效的类药化合物。

探索阶段：穷尽筛选片段空间 聚焦低分子量化学空间（含≤14个重原子的片段级化合物），该区域分子数量少且可系统探索。利用MDMix模拟识别BRD4（BD1）结合位点热点，发现Asn140的Nδ原子极性相互作用及结合位点底部水分子簇附近的疏水热点，以此为药效团约束进行对接。从Enamine REAL数据库和ZINC20获取约400万个独特片段，经处理生成约1200万分子结构，通过rDock进行高通量虚拟筛选，保留满足药效团约束且对接评分优良的3510个构象。

采用Chemical Checker signaturizers（CCS）将片段聚类为2000个簇，通过MM/GBSA计算结合自由能（ΔGbind），保留≤-30.0 kcal/mol的簇代表分子，再经DUck筛选（WQB≥7.0 kcal/mol）获得5个含独特骨架的片段（虚拟片段hit）。

利用阶段：骨架生长与聚焦库筛选 以5个片段为起点，用SpaceMACS在Enamine REAL Space中搜索含对应骨架的化合物，每骨架最多2000万分子，经类药性质过滤（Lipinski规则、可旋转键<8等）和构象准备，生成各含1600万至2700万化合物的聚焦库。通过tethered docking（rDock）保留骨架结合模式，过滤后剩余2400至380万化合物，用CCS聚类为每骨架1000个簇，经MM/GBSA（去溶剂化能≤20 kcal/mol）和DUck（WQB≥母体片段）筛选，按共识评分选取每骨架前10个化合物合成并验证。

为验证策略普适性，设置第二场景：基于已知结晶片段（4LZS、6ZED、6ZF9）和BRD4药物（ABBV-075、IBET-151、(+)-JQ1）的骨架直接生长，流程与虚拟片段hit一致，仅调整SMARTS编码以适应复杂结构。

此图展示了用于探索超大化合物库的工作流程示意图。对于无先前知识的场景（场景 1；蓝色），通过基于 MDMix 发现的药效团的片段虚拟筛选来识别虚拟片段命中化合物。若已知初始结合剂（场景 2；绿色和红色），则衍生出主要的核心骨架。左侧突出显示了每个场景的初始片段和骨架。通过创建以骨架为中心的库来生长选定的骨架，这些库经过制备和对接后聚类，再结合 DUck 和 MM/GBSA 进行评估。选定的化合物随后进行合成和实验测试。图中的数值对应每个场景在每个阶段评估的分子数量。

实验验证方法 通过DSF和SPR进行双单剂量筛选（10μM），以熔解温度偏移（ΔTm≥2×SD）和信号偏离空白均值≥2×SD为阳性标准；对双阳性化合物，用竞争性TR-FRET测定IC50，通过X射线晶体学验证结合模式。

该图呈现了 DSF 和 SPR 的初始筛选结果。a 为在 10 µM 浓度下通过 DSF 进行的单剂量筛选结果，显示按 BRD4（BD1）的热位移程度分组的化合物数量。b 为在 10 µM 浓度下通过 SPR 进行的单剂量筛选结果，显示按与空白样品平均值相比获得的显著性分组的化合物数量。c 为按不同初始场景分组的 DSF 和 SPR 结果组合的维恩图。

研究结果：高命中率与多样BRD4（BD1）结合剂

该表总结了计算流程各步骤产生的分子数量。涵盖了虚拟片段命中（场景 1）、结晶片段命中（场景 2）和 BRD4 药物（场景 2）三种骨架来源，分别列出了亚结构搜索产生的化合物数量、类药 3D 构象数量、成功对接的结构数量、聚类数量、满足 MM/GBSA 和 DUck 共识阈值的化合物数量以及合成的化合物数量（来自排名前 10 的化合物）。

虚拟片段hit场景 32个合成化合物中，14个为DSF hit（44%），20个为SPR hit（63%），10个双阳性，最终7个经TR-FRET验证为BRD4（BD1）结合剂，IC50涵盖低微摩尔至纳摩尔范围。

结晶片段与药物场景 24个结晶片段衍生化合物中，17个DSF hit（71%），10个SPR hit（42%），6个双阳性并经TR-FRET验证；29个药物衍生化合物中，21个DSF hit（72%），9个SPR hit（31%），6个双阳性并验证。

X射线晶体学显示，化合物92（IC50=621.8 nM）和94（IC50=27.9 nM）的结合模式与对接预测一致，化合物50（IC50=1129 nM）虽结合姿态翻转，但保留关键药效团特征。

此图展示了 HTRF TR-FRET 和 X 射线实验的结果。a 为通过 HTRF TR-FRET 获得的 DSF/SPR 命中化合物和 X 射线筛选命中化合物的 IC50 值摘要，误差线对应 95% 置信区间（n=2）。b 为通过 HTRF TR-FRET 评估的剂量反应曲线示例，比较了（+）−JQ1 对照（化合物 3，黑色）和三个示例化合物（蓝色和橙色），每个点代表两个独立重复的平均值，误差线对应其标准偏差。c 为化合物 92（补充数据 2；PDB 9HT2）、94（补充数据 3；PDB 9HT1）、50（补充数据 4；PDB 9HT0）与 BRD4（BD1）结合的 X 射线结构，图中展示了预测的结合构象（粉色）和解析的晶体结构（绿色）。

化学多样性分析 19个验证结合剂在Chemical Checker化学空间中分布稀疏，与ChEMBL已知BRD4结合剂无明显聚类，余弦距离分布更接近随机化合物，表明其化学多样性高且新颖。

该图为最有效的化合物与已知 BRD4（BD1）结合剂相比的化学多样性分析。a 为化学 Checker 化学空间中的随机分子（绿色）、已知 BRD4 结合剂（蓝色）和发现的结合剂化合物（红色）的化学多样性示意图。b 为自下而上方法获得的化合物（橙色）、从 Chemical Checker 化学空间中随机选择的一组化合物（灰色）、来自 ChEMBL 的已知 BRD4（BD1）结合剂（蓝色）和验证的结合剂（红色）的组内距离（余弦距离）分布直方图。