
本文介绍一篇浙江大学侯廷军教授、康玉副教授团队联合澳门理工大学刘焕香教授团队发表在Nature Protocols的论文,题为“Facilitating structure-based drug discovery with an artificial intelligence-driven virtual screening platform”。该研究基于AI引擎打造了一个多功能的虚拟筛选平台CVSP-AIE,旨在助力基于结构的药物发现。该平台整合了侯廷军教授和康玉副教授团队发展的三种AI模型,分别是通过直接更新原子坐标实现快速对接的KarmaDock、通过预测蛋白与配体距离并重构结合构象实现精准对接的CarsiDock,以及通过学习残基与原子距离分布进行精准亲和力预测的RTMScore重打分模型。通过对这三种模型进行层次化调用,平台实现了筛选速度与预测精度的良好平衡。CVSP-AIE通过本地软件包和在线服务器两种方式提供筛选服务。用户只需上传靶蛋白结构并提供一个已知配体以定义结合口袋,即可高效启动筛选流程。完整的工作流程分为三个阶段:首先是预处理阶段,主要进行蛋白结构修复与分子标准化;其次是构象与亲和力预测阶段,由上述三种AI模型协同驱动;最后是后处理阶段,负责计算并可视化蛋白与配体间的相互作用。对十万个化合物进行分层筛选仅需约三十至四十五分钟。最终输出的排序列表包含预测结合评分和分子间相互作用图谱,并支持交互式的化学空间分析。此外,用户还可通过命令行工具在本地部署层次化筛选模块,以满足超大规模的筛选需求。

引言
药物发现是一项复杂的科学工作,具有周期长、投入大、风险高的特点。苗头化合物的高效筛选作为药物研发管线的关键上游环节,直接影响着后续研发阶段的整体成功率与资源利用效率。湿实验筛选能够通过直接的实验证据验证苗头候选物,但可探索的化学空间有限,且耗时耗力。全计算机模拟的虚拟筛选方法为此提供了强有力的替代方案,虚拟筛选方法主要分为基于配体和基于结构两大类。基于配体的模型往往受限于特定靶点已知活性分子的化学空间,难以发现具有全新骨架的化合物。
相比之下,基于结构的方法不依赖于靶点已有活性配体的先验知识,而是将化合物库中的分子依次对接到靶蛋白的结合口袋中,再评估结合强度并对分子进行排序(图1a)。这一过程中的核心瓶颈蛋白质三维结构的确定,已随着 RCSB 蛋白质数据库的不断扩充与 AlphaFold 系列模型的问世得到了大幅缓解。此外,作为基于对接的虚拟筛选的另外两大核心组成部分,众多蛋白-配体对接与打分方法在人工智能技术的赋能下持续迭代,展现出了优异的速度与精度。回顾性验证研究进一步证实,这些方法在真实药物筛选项目中具备富集活性化合物的潜力。因此,采用人工智能驱动的对接与打分方法,有望显著加速基于结构的虚拟筛选流程。
然而,不同对接打分模型基于各异的算法架构开发,其性能与内在特性存在显著差异。这种差异性使得筛选合适的人工智能模型成为一项颇具挑战的工作,需要在模型性能与具体研究场景的限制之间取得平衡。此外,使用这些人工智能工具要求使用者具备专业硬件操作、编程环境部署、系统化数据前后处理以及计算异常排查等技术能力。这些门槛限制了工具的可及性,对于专注于实验研究、较少接触计算工作流的科研人员而言尤为明显。
为应对上述挑战,我们提出了一套以用户为中心、面向实际应用的方案 —— 搭载人工智能引擎的综合虚拟筛选平台 CVSP-AIE,该平台包含在线网页服务器与本地软件包两部分(图 1b)。网页服务器支持用户上传靶点与参考配体文件,即可执行完整的虚拟筛选工作流,包括数据预处理、基于对接的虚拟筛选与结果分析(图 1d)。本地软件包可便捷地离线部署核心层级筛选模块,使用户无需受共享计算资源排队等待的限制,即可开展大规模虚拟筛选项目(图 1c)。综上,CVSP-AIE消除了药物筛选的技术门槛,面向实验研究者与计算研究者均具备普适性。

图 1: CVSP-AIE 核心功能与架构示意图。
CVSP-AIE流程概述
CVSP-AIE 包含两大核心组件:在线网页服务器与本地软件包。网页服务器整合了六大功能模块,支撑完整的药物筛选工作流,涵盖:数据预处理、基于对接或重打分的虚拟筛选和结果后处理(如图2中云服务部分所示)。数据预处理模块负责靶蛋白结构与化合物库的制备;虚拟筛选任务可通过四个各具特色的功能模块执行;经任意一个筛选模块完成分子对接与排序后,系统会自动对排名靠前的分子做进一步处理,包括蛋白-配体相互作用可视化与化学空间分析。CVPL 模块则支持对任意给定的蛋白-配体复合物进行相互作用的计算与可视化。CVSP-AIE 本地版将在线平台的核心层级虚拟筛选功能整合为完善的软件包,用户可在本地部署,通过命令行界面调用本地计算资源,开展任意规模的虚拟筛选任务。CVSP-AIE 本地版的通用使用流程包括:软硬件环境准备、下载并部署提供的 Docker 镜像、安装 HierVS pip 包和执行 HierVS 命令(如图 2 中本地服务部分所示)。

图 2: CVSP-AIE 云服务与本地服务流程概览。
CVSP-AIE的开发过程
CVSP-AIE主要基于三个完全AI驱动的模型(RTMScore、KarmaDock和CarsiDock)构建,用于分子对接与打分,并纳入了面向实际虚拟筛选项目所提出的层级式虚拟筛选策略。所有相关模型及筛选策略全部由侯廷军教授课题组自主研发。
基于分子对接的结构虚拟筛选是识别潜在候选药物的重要手段。传统的基于物理学的对接方法,如Glide、LeDock、rDock和Surflex,通常采用搜索算法对可能的配体构象进行采样,并随后通过预定义的打分函数进行评估和排序。尽管这些方法采用启发式算法进行结合构象预测以缩小构象搜索空间,但其预测精度本质上受限于有限计算步数内无法完全收敛的问题。这些工具中所采用的打分函数主要基于物理或经验原则构建,其可靠性常因过简化的加和性假设而受到影响。随着人工智能的快速发展和生物数据的持续积累,我们首先提出了重打分工具RTMScore,该工具利用密集混合网络学习蛋白质-配体距离分布,在多个重打分基准测试中取得了最优性能。然而,由于RTMScore仅专注于重打分任务而无法执行分子对接,我们进一步开发了KarmaDock。该模型引入了一种带有自注意力机制的E(n)等变图神经网络来更新配体的原子坐标,这一改进使其具备了独立执行虚拟筛选的能力,并兼具高精度与高效率。与KarmaDock不同,后续开发的CarsiDock通过学习蛋白质-配体原子矩阵,并采用平移、旋转和二面角引导的几何优化算法将矩阵重构为可信的结合构象。这一差异使得CarsiDock能够生成更具物理合理性的配体构象,但同时也需要消耗更多的计算资源。综上所述,每种方法在速度与精度之间呈现出不同的权衡关系。而在实际虚拟筛选活动中,兼顾筛选速度与精度至关重要。为此,我们提出了一种层级筛选策略,通过依次调用上述三个模型,并辅以灵活的参数配置,有效满足了这一需求。
为进一步降低上述工具在虚拟筛选中的使用门槛,我们开发了CVSP-AIE的在线版本,将三个模型集成于统一的网络服务器中,并增设了数据准备模块和结果后处理模块。该网络服务器的设计经过专门优化,使不具备编程经验的研究人员也能便捷地开展虚拟筛选任务。服务器配备双NVIDIA RTX 4090 GPU和Intel Core i9-14900KF处理器,支持两个筛选任务并行执行。然而,考虑到共享计算资源的有限性以及维护多用户友好服务环境的需要,在线平台对任务规模施加了必要的限制,即每个虚拟筛选任务的化合物数量上限为一百万。该阈值能够满足绝大多数研究需求,同时可避免大规模长时间任务独占资源而影响其他用户的使用体验。为进一步满足药物发现中常见的大规模虚拟筛选需求,我们还额外开发了本地可部署版本。该本地版本无化合物库规模限制,允许用户在自己的计算环境中高效筛选超大规模化合物库。
CVSP-AIE的优势与局限
CVSP-AIE 的优势
本方案为用户开展虚拟筛选项目提供了便利,具备多项以用户为中心、面向实际应用的优势。CVSP-AIE 主要有四大核心优势:(1)易用性强:用户通过直观的网页界面上传文件即可完成完整虚拟筛选工作流,结果以可视化、交互式形式呈现,大幅降低了用户的技术门槛;(2)功能多元:CVSP-AIE 整合了多款人工智能模型,用户可根据需求灵活选择不同特性的筛选策略;同时提供云服务与本地服务两种模式,有效拓宽了应用场景;(3)性能优异:内嵌模型在多项基准测试中表现处于第一梯队,其中 KarmaDock 已在实际筛选项目中多次成功识别活性分子,验证了其实用性;(4)开源开放:我们通过 Docker 镜像与 PyPI 包提供 CVSP-AIE 的核心代码,支持用户在此基础上进一步开发与定制化创新。
CVSP-AIE 的局限
CVSP-AIE 平台目前仍存在几方面局限:(1)在线服务器同时处理多个任务时,用户需要排队等待计算资源分配:由于虚拟筛选任务通常涉及数万乃至更多分子,单个任务可能需要数小时完成,高负载下用户可能面临较长的排队时长;(2)任务预估运行时间可能存在偏差:尽管任务提交后系统会自动评估并显示预计完成时间,但分子结构优化时长不可控、并发任务间可能存在干扰等因素,常导致实际运行时间与预估存在偏差;(3)平台目前仅支持结合位点明确的受体结构,需要参考配体来划定结合口袋:若仅有蛋白质结构,用户必须先借助 AlphaFold3 或 Boltz2 等工具构建复合物结构,增加了工作流的前置步骤与复杂度;(4)CVSP-AIE需要持续整合更先进的人工智能模型,以维持其在虚拟筛选领域的性能竞争力:这一必要性源于当前 CVSP-AIE 框架内人工智能模型的固有局限,包括预测构象的物理合理性仍有不足、对结合口袋扰动的敏感性不强,以及应用于新颖靶点与配体时性能显著下降等问题。
实验设计
云服务
用户可通过网页服务器的图形界面便捷完成完整虚拟筛选工作流(图3)。在线服务器最多支持同时并行执行两项筛选任务,超出数量的任务将进入队列等待。若用户提交任务时填写了邮箱地址,每项任务完成后系统会自动向该邮箱发送结果页面链接。具体实验设计流程如下:
使用在线网页服务器开展虚拟筛选时,用户首先需要获取研究靶蛋白的三维结构以及与之结合的配体,二者主要用于定位结合口袋。蛋白质结构可从 RCSB 数据库下载;若数据库中无对应结构,建议使用 AlphaFold3 或 Boltz2 等建模工具进行蛋白 - 配体复合物结构预测。获取结构后,建议先通过预处理模块对蛋白结构进行预处理再开展虚拟筛选。尤其是来源于 RCSB 数据库的结构,通常存在环区缺失等问题。用户可选择两类化合物库进行筛选:系统提供的化合物库:已完成预处理,可兼容虚拟筛选工作流;用户上传的自定义化合物库:必须先通过预处理模块手动预处理,再用于后续筛选,避免因分子格式不规范导致流程中断。
完成预处理后,用户可选择以下任一策略开展虚拟筛选:(1)基于 KarmaDock 的高效筛选(HeVS 模块):在 HeVS 模块上传蛋白结构、参考配体与化合物库,提交任务即可;(2)基于 CarsiDock 的高精度筛选(HpVS 模块):上传内容与HeVS模块要求一致,额外可选择是否保留分子对接构象,提交任务即可;(3)层级筛选(HierarchicalVS 模块):该策略先使用 KarmaDock 对完整化合物库进行筛选,再选取排名前 N 的分子,进一步用 CarsiDock 与 RTMScore 做精准对接与打分。上传内容与 HpVS 模块要求一致,额外可设置 Top N 数值,提交任务即可;(4)基于 RTMScore 的重打分筛选(HpRS 模块):与上述模块不同,其输入应为受体、参考配体,以及通过其他对接工具(如 Glide 或 AutoDock Vina)得到的配体结合构象,而非原始化合物库,提交任务即可。
虚拟筛选完成后,系统会自动执行后处理分析。所有筛选模块均会基于预测的结合打分生成分子排序。此外:HeVS 模块会对排名靠前的分子进行化学空间分析,包括结构聚类与性质计算;CarsiDock 模块除化学空间分析外,还额外执行蛋白-配体相互作用计算与可视化;HierarchicalVS 模块的后处理流程与 CarsiDock 一致;HpRS 模块主要聚焦于排名靠前分子的蛋白-配体相互作用分析。除这些自动化流程外,用户还可通过 CvPL 模块灵活对任意蛋白 - 配体复合物进行相互作用分析。

图3:基于 HierarchicalVS 模块的完整虚拟筛选工作流流程。
本地服务
受在线服务器计算资源限制,单个任务最多可处理 100 万个小分子。但虚拟筛选常涉及超出该规模的化合物库。为满足这一需求,用户可使用我们提供的本地安装包,该安装包集成了核心层级筛选模块,部署后支持筛选任意规模的化合物库。具体操作流程如下:按照 “设备” 章节要求准备软硬件环境;从远程仓库下载提供的 Docker 镜像并在本地部署;安装最新版 HierVS 软件包;完成后即可在终端执行 HierVS 命令,指定相关参数启动筛选任务。化合物库预处理会在虚拟筛选工作流中自动执行。
预期结果
CVSP-AIE 生成两大类结果:基于预测结合打分的分子排序结果(图 4a),以及对排名靠前分子的深度分析结果(图 4b~e)。深度分析包括蛋白-配体相互作用计算与可视化,以及分子化学空间分析,分别使用 ODDT v0.7 与 iChemSpace 工具完成。
用户可在预处理模块的结果页面获取处理后的蛋白质结构及化合物库文件。其中,蛋白质结构通过Schrödinger套件中的Protein Preparation Wizard模块进行制备,化合物库则经RDKit程序包进行标准化处理,并剔除未通过验证检查的分子。在HierarchicalVS模块的结果界面中,用户可获取多维度的虚拟筛选结果,以及基于KarmaDock、CarsiDock和RTMScore计算产生的分析输出(如图4所归纳)。可用的数据与可视化工具组织如下:分子排序输出,蛋白质-配体相互作用分析与可视化和交互式化学空间分析与可视化。在CVSP-AIE平台中,HierarchicalVS模块集成了所有AI模型与分析方法,提供最为全面的输出覆盖。
相比之下,其他专用模块通常仅包含完整工作流程中的部分子集,其输出可视为完整HierarchicalVS结果的组成部分。各模块具体输出内容如下:HeVS模块产生基于KarmaDock的分子排序,以及排名靠前分子的化学空间分析与可视化。HpVS模块产生经RTMScore重打分的分子排序,蛋白质-配体相互作用可视化与分析,以及排名靠前分子的化学空间分析与可视化。HpRS模块产生经RTMScore重打分的分子排序,以及蛋白质-配体相互作用可视化与分析。CvPL模块:作为一个通用工具,支持对任意给定蛋白质结构和配体构象进行蛋白质-配体相互作用可视化与分析。

图 4: CVSP-AIE 平台的预期结果。
供稿人:谷书凯
参考资料
Gu, S., Zhang, X., Xiao, M. et al. Facilitating structure-based drug discovery with an artificial intelligence-driven virtual screening platform. Nat Protoc (2026).
https://doi.org/10.1038/s41596-026-01389-z