2022年2月15日,来自8家制药公司、生物技术公司(默克、赛诺菲、拜耳、阿斯利康、诺华、勃林格殷格翰、武田、Relay Therapeutics)和超过15所大学的专家在Nature Reviews Chemistry杂志联合发表文章,介绍了CACHE(用计算方法发现hit的实验关键评估)的路线图,该项目旨在通过预测和实验测试的循环来比较和改进小分子hit发现算法。
计算化学面临的问题及如何解决
计算化学的一个理想目标是预测针对任何蛋白质的有效的和类药的结合物。
由于计算能力的飞跃,多样化化学空间的可及性增加,基于物理学的方法的改进,以及较新的机器学习和人工智能方法的新兴潜力,hit发现的计算方法有望在早期药物发现中产生重大影响。然而,尽管有这样的前景,目前还没有一种算法能够稳定地对有效的类药小分子蛋白质结合物进行选择、设计或排序。
计算方法的发展可以通过盲法基准测试练习(blinded benchmarking exercises)获得重大进展,蛋白质结构预测关键评估(Critical Assessment of Structure Prediction, CASP)带来的社区在开发蛋白质结构预测的计算方法方面取得的进展就是证明。现在,机器学习算法可以预测许多(但不是全部)蛋白质的结构,其准确度与实验测定的一样,而且在预测蛋白质复合物的结构方面也在迅速取得进展。
在计算化学中,事实上已经出现了类似于CASP的基准练习,如预测蛋白质-配体姿势和亲和力的D3R Grand Challenge 3,为被忽视的疾病靶点征集高质量的计算工作流程的TDT,将多个研究人员集中在一组共同的分子系统上、比较方法并交流想法的SAMPL挑战。然而遗憾的是,目前没有一个是可操作的。
这在很大程度上是因为相关的成本(化合物的合成和质量控制、测试成本)、参与者也没有机会在一个实验室里在标准化的条件下严格测试分子与蛋白的结合。此外,商业敏感性也是很大的问题:很大一部分适合作为计算预测基准的实验数据是在制药行业内产生的,并被保密,而不是被公布出来供一般人使用。
CACHE的概念和起源
药物研发困难重重,竞争前合作的理念逐渐在一定范围内获得认可。
在包括深度学习在内的计算方法的最新发展、以及在确定最佳性能方法方面的挑战的推动下,2020年11月,来自工业界、学术界和资助机构的约80名科学家举行了虚拟会议,考虑可能受益于协调基准测试(coordinated benchmarking)的药物发现的潜在领域。在所确定的许多领域中,该小组优先考虑了hit发现,认为它特别合适和实用,是一个很好的开始领域。为了推进这一想法,一组约30名代表在四个工作组中制定了CACHE的概念草案。
之后的2022年2月15日,来自8家制药公司、生物技术公司(默克、赛诺菲、拜耳、阿斯利康、诺华、勃林格殷格翰、武田、Relay Therapeutics)和超过15所大学的专家在Nature Reviews Chemistry杂志联合发表文章,介绍了CACHE(Critical Assessment of Computational Hit-finding Experiments,用计算方法发现hit的实验的关键评估)的路线图。
CACHE是一项基准工作,目的是获得关于使用人工智能/机器学习或基于物理学的方法进行计算性hit发现预测的高质量实验反馈,弥合分子发现和计算设计之间的差距。
为了能够良好的运转,CACHE对标CASP,并吸取了计算化学中以往的挑战活动的经验和教训,在内容、经费来源、工作流程、结果输出、组织管理等方面进行了严谨、细致、全面的设计。
CACHE的组织架构
CACHE被设计为一个独立的、非营利性的实体。CACHE或其上级组织将获得经费来源,并分包给其他组织(学术界、政府或工业界)开展CACHE活动,所有条款都要求开放数据共享。CACHE将建立一个秘书处来处理行政管理、资金筹集、项目管理和后勤工作。
CACHE的部分资金将由会员提供,会员将有机会通过任命管理委员会成员来影响CACHE的战略方向(图4)。管理委员会将负责做出运营决策,包括靶点选择、参与规则和资金使用。管理委员会将任命一个外部科学顾问委员会,就靶点选择战略和成功的衡量标准等科学问题获得外部建议。
图4:CACHE的管理架构
CACHE将被设计为一个独立的、非营利的实体。
CACHE的管理将包括:一个由资助者(成员)组成的管理委员会(governing board)、一个外部科学顾问委员会(external scientific advisory board)和一个负责监督日常运作的秘书处(secretariat)。
管理委员会将设立三个科学委员会:靶点选择委员会(target selection committee)将选择蛋白质靶点(最终决定受管理委员会影响);虚拟库委员会(virtual libraries committee)将确定要筛选的虚拟化学库;hit评估委员会(hit evaluation committee)将建立成功的指标,并根据指标评估结果。不希望在管理中发挥积极作用的资助者可以提名靶点供靶点选择委员会考虑。
CACHE的内容和工作流程
CACHE将向社区提出并组织各种hit发现挑战。
CACHE将确定合适的蛋白质靶点,策划虚拟化学库,定义生成预测的成功参数,并征求对热门化合物的预测。为了进行评估,CACHE将购买或以其他方式采购预测结合的化合物,通过实验测量其与预期靶点的结合,计算活性化合物的其他关键属性,并与科学界公开分享结果(图1)。
CACHE设想与CASP一样,组织多轮挑战,为计算科学家、分子建模者、算法开发者等提供持续的机会来改进和测试他们的方法。
图1:CACHE挑战赛工作流程
1. hit发现的挑战。CACHE向社区提出各种hit发现的挑战,包括评估标准。
2. 虚拟库。CACHE将建立并主持两个虚拟库:一个是按需定制的库(REAL,ZINC20),一个是由学术界或工业界的化学家可合成的化合物组成的库。
3. 参与者预测化学物质,CACHE对化合物进行实验测试。每个参与者每轮都有机会进行两个周期的预测。CACHE将采购并测试预测出来的化合物。在这个阶段,化合物的结构将提供给所有参赛者,但筛选数据将只提供给特定的参赛者和竞赛管理部门,以便作为另一个预测周期的起点。
4. 放入公共领域的化合物和数据。一旦第二周期完成,数据包(包括所有结构和筛选数据,以及对每个化合物的评估)将无限制地提供给所有人。
CACHE的挑战和靶点选择
CACHE将组织hit发现挑战,这些挑战代表了hit发现过程中遇到的常见情况(图2b)。CACHE的靶点选择委员会将选择适合这五种情况的靶点。
图2:靶点选择的考虑和CACHE挑战的类别
a | 靶点将从代表不同技术难度的一系列情况的蛋白质长名单中选出,这些蛋白质在实验上是可行的(例如,必须有一个强大的结合测定法),并且在可能的情况下,代表了做出新的生物或医学发现的机会。资助者可以在每个挑战中对靶点进行优先排序。
b | 解决计算化学中关键技术问题的五个潜在hit场景。
靶点的选择与资金支持方有关。
预计,资助者(比如专注于疾病的慈善机构)可能会将CACHE视为一个有吸引力的资助机会,通过动员广泛的全球计算化学家网络来专注于他们的优先靶点(图2a)。除了提供直接的资金支持外,资助者、基金会或公司也可能为CACHE提供实物支持,例如,提供对特定靶点的所有预测的评估,或提供计算资源、检测试剂和/或实验室设备。
虚拟化合物库的提供
为了能够对预测进行快速和具有成本效益的测试,CACHE将建立一个定义明确和强大的核心按需定制的虚拟库,其中包括可以从商业供应商那里以合理的成本获得的化合物。Enamine REAL(目前提供210亿个按需定制的化合物)和ZINC20(包含超过7.5亿个可购买的化合物)的组合可能构成该库的核心。
CACHE将用预测的物理特性对库中的化合物进行注释,如cLogP、极性表面积和sp3碳原子的比例(Fsp3)等,这些将在挑战的成功标准中进行评估。
在CACHE基准测试的过程中,CACHE虚拟库委员会将定期和确定的时间间隔,评估库的选择、组成和性质(多样性、规模)对虚拟筛选能力和一般筛选成功的影响,并提出相应的改变建议。
通过实验评估预测
CACHE计划的核心是一个实验中心,它将提供快速、高质量的预测结果测试。预测的化合物将被提交给实验中心,实验中心将采购这些化合物,并通过选择最适合蛋白质靶点的结合试验对其进行评估。每个化合物将在单一浓度下进行一式两份的检测,每个阳性化合物将在剂量反应模式下以及在正交的生物物理检测中进行复测,这对实验结果的稳健性至关重要。反馈将首先提供给参与者,做出成功预测的参与者将有机会通过提交一组新的预测来改进这些预测。
每轮CACHE挑战赛将耗时约18个月,每轮有两个预测周期,以便让参与者有机会将第一轮的学习成果纳入他们的下一个设计中。拟议的挑战赛的时间和顺序如图3所示。
图3:挑战活动的时间表
在审查了意向书(LOI)之后,每一轮完整的挑战赛将需要~18个月的时间,各个阶段都有概述。
作为每个挑战的一部分,参与者将被要求从一个小型库中进行预测,该库构成了所有参与者对第一个周期贡献的预测化合物的组合列表。对这些化合物进行实验测试,然后与预测进行比较,将有助于算法间的基准测试。
CACHE的基准测试
对计算性的hit发现方法进行基准测试是一个挑战,因为没有一个单一的衡量标准,来确定在众多结合物中哪一个是最好的。尽管对所需蛋白质的结合亲和力将是主要的基准标准,但如果挑战中需要,也将测试对特定非靶点的选择性。
在每次挑战之前,CACHE将公布相应的成功标准(活性、选择性、水溶性、亲脂性、新颖性等),以及如何将这些标准合并成一个多靶点的总分,类似于oralPhysChemScore(oPCS)。结合亲和力、水溶性和logD将被测量。计算的特性包括:校正分子量、极性表面积、可旋转键的数量、Fsp3和新颖性。
如上所述,为了便于在各种方法之间进行比较,所有参赛者对某一特定靶点的预测将被合并为一个小型的虚拟库,所有参赛者也将被要求对这些化合物进行排名。
CACHE的产出
CACHE将为社区产生三个主要产出:筛选数据、化学结构和算法性能(box1)。CACHE的任务是确保筛选数据和化学结构不受知识产权或其他使用限制,并根据FAIR原则以数字可读格式向社区提供。这些数据还将包括所筛选的虚拟库的组成、所有预测的小分子(包括阴性数据)、所有实验性筛选结果和所有筛选方法。
CACHE将要求参赛者足够详细地披露他们的计算方法,使该领域的专家能够理解方法和算法。这些方法描述将由其他参与者进行双盲同行评审,以确保它们包含符合该领域标准的足够信息。
CACHE将鼓励参与者分享他们的软件代码,那些在允许的开源许可条款下发布其代码、算法和工作流程的参与者将获得一系列经济奖励,CACHE鼓励他们提交其完全自动化的工作流程。此外,参与者必须同意,当筛选数据和化合物结构公开发布时,提交最佳方法(根据CACHE和参与者同意的预先规定的标准确定)的人的身份将自动去掉匿名。同意分享工作流程、代码和方法的参与者必须以公平的方式进行分享。
box1 CACHE的产出
CACHE的资助战略
CACHE计划其活动,包括治理、管理、后勤和数据共享,将得到政府、行业和慈善机构的支持。理想情况下,CACHE的资金也将用于为来自资源匮乏环境的参与者提供补贴,从而提供一个整体上更具包容性的方法。
挑战本身的资金将由感兴趣的资助者和参与者分享。资助者,如一个疾病基金会,可以支持他们特别感兴趣的挑战。随着CACHE的成熟,参与者将被要求支付参与费,以反映每个化合物的部分成本(包括合成/采购和检测)。为了促进这一点,CACHE将为每个挑战制定一个透明的成本结构。为了鼓励透明度,CACHE希望能够为同意分享其方法、代码或方法论的参与者提供参与费用补贴。
通过集中实验,CACHE不仅将提供标准化的数据,而且还将比在单个实验室开展活动节省后勤和成本。
目前已经启动的挑战
CACHE的官网已经发布了3项挑战:
预测 LRRK2靶点(家族性帕金森病中最常见的突变基因)的 WDR 域的hit的挑战,
寻找靶向SARS-COV-2 NSP13保守RNA结合位点的配体的挑战,
寻找靶向SARS-COV-2 NSP3宏域的配体的挑战,
CACHE的成功标准
CACHE将是一个长期项目,将根据短期内(1-3年)的组织能力和社区参与以及长期内(第3年及以后)的科学成就等成功指标进行评估。组织上的成功将通过运行几轮目标选择的整个工作流程来实现。
社区参与的成功将被定义为随着时间的推移,从越来越多的社区成员那里产生源源不断的靶点、hit建议和实验结果。
在定量指标方面,CACHE希望在4年后能将100多个参与者选择的12种蛋白质和30,000个类药物分子的实验筛选数据存入公共领域。在此期间,CACHE还期望计算方法能够预测出25%被提名的新靶点的前所未有的hit。
CACHE有望能够提供更明确的指导,说明哪些计算方法最有希望识别新型小分子活性物质,从而在全球范围内显著影响计算性hit发现方法的发展。
参考资料
Ackloo, S., Al-awar, R., Amaro, R.E. et al. CACHE (Critical Assessment of Computational Hit-finding Experiments): A public–private partnership benchmarking initiative to enable the development of computational methods for hit-finding. Nat Rev Chem 6, 287–295 (2022). https://doi.org/10.1038/s41570-022-00363-z
https://cache-challenge.org/
--------- End ---------