2022年1月22日,来自TARA Biosystems公司的Misti Ushio和来自VantAI公司的Zachary Carpenter在Drug Discov Today杂志发表文章,文章认为AI药物发现的发展需要来自高保真和功能丰富的体外模型的支持。衡量成功的最终标准不是快速发现新的候选药物,而是极大地提高临床成功的机会。为了获得成功,数据生成过程和算法开发必须同步进行。
TARA公司开发了预测性组织模型(工程心脏组织等),有助于更快、更安全、更可靠地开发新药。VantAI公司从事蛋白质降解剂的计算设计和优化。
以下是全文内容。
主要观点
人工智能在药物发现中的应用正在超越炒作,进入临床管线。
减少对加速化合物筛选和优化的重视(应当更加重视临床成功率)。
高保真和功能丰富的体外模型为药物发现产生了大量的数据。
前言
2020年1月,一个药物发现中的重要里程碑宣布:一个完全使用人工智能设计的药物分子正准备进入临床试验。在短短的12个月内,这个人工智能驱动的药物发现项目复制了使用传统方法通常需要数年的劳动、勤奋和专业知识才能完成的工作。
包括药物化学家Derek Lowe在内的专家说,并没有那么快,他在Science Translational Medicine专栏中告诫读者要防止机器的狂妄。Lowe说:"在这一点上,我相信他们现在的情况和其他人一样,这意味着仍然有90%以上的失败率。人工智能并没有改变这一点。我希望它最终能做到,但它还没有。"
使用人工智能开发新药的支持者通常强调可能减少周期时间和化合物优化所需的总周期数。这些反过来又与药物发现的总体时间和成本的减少相对应。
然而,同样重要的是,要关注提高从研究到临床的成功率。为了治疗人类疾病,我们必须从真正的人类生物学开始。
为了预测多年后在数百万美元的临床试验中出现的疗效信号和毒性信号,当真正的病人生命受到威胁时,我们需要设计、训练和完善我们的人工智能平台,使之真正转化为拯救生命的疗法。
寻求高保真生物数据
目前,早期药物开发在很大程度上依赖于生化试验、动物模型和越来越大的公共数据集。不幸的是,研究人员经常将他们的希望寄托在简化的检测方法和不精确的动物模型上,这些方法根本不能反映人类生物学的复杂性。
我们现在有一个替代方案:高保真和功能丰富的体外模型。通过设计,这些模型模仿了真实的人类生物学和生理学,因此,从这些模型中得到的数据也可以使机器学习在更接近真实人类生物学的方向上得到训练,例如,心肌细胞组装成三维结构,并像真实的心脏一样收缩(TARA Biosystems公司在做)。这些模型再现了人类体内心脏功能的生理终点,包括收缩性、电生理学、钙信号、结构,以及基因组、转录组、蛋白质组和代谢组概况。在受控的微环境中设计的这些体外模型,首次实现了健康和疾病生物学的标准化可扩展生产。对这些模型的高通量测试可产生大规模的、具有丰富和多样化特征的高质量数据,可支持强大的算法训练,并释放人工智能在药物发现和开发方面的巨大潜力。
尽早地开展有目的的合作
丰富、高保真的人类表型数据是将人工智能进展转化为成功药物所需的关键桥梁。当VantAI和TARA这样的企业联合起来时,强大的机器学习技术、深入的系统生物学专业知识和与人类相关的体外生物学就可以结合起来。由此产生的计算模型可以发现隐藏的关系,最终,研究人员获得了一个无与伦比的窗口,了解新的药物靶点、它们与病理学的联系,以及特定化合物能够产生有益治疗反应的可能性(同样重要的是,哪些不能)。
在生物制药领域有许多数据合作关系,但它们很少是完美的匹配,许多公司只是利用容易获得的有限的数据库来做。这种被动的方法远非理想,部分原因是在数据生成和人工智能性能之间没有建立反馈回路。此外,许多可用于人工智能的数据集往往源于与药物开发非常不同的需求(如医疗账单数据)。它们不是专门为人工智能而设计的,它们是嘈杂的、不完整的,而且充满了人为错误。所有这些都限制了它们作为训练集的适用性。为了获得成功,数据生成过程和算法开发必须同步进行。这使得人工智能公司能够解决"版本"问题,不是创建一套数据和一种算法,而是一连串的数据集和算法版本。每一个后续的数据集都是专门为解决从上一个版本的训练和评估中发现的性能问题而构建的。
机器学习和体外人类生物学的结合,如果做得好,可以为实验问题创造一个高通量的反馈回路,能够以前所未有的速度验证模型的预测。这种串联对于创造高性能的计算工具以及与人类相关的体外生物学至关重要,它可以简化药物发现,并在第一个病人用药前很久就可以预测结果。此外,所产生的数据可以反馈到VantAI的计算平台,以进一步完善领先的候选药物,并扩大VantAI-TARA对心脏疾病系统的联合数据图表视图。
负面数据的价值
在开发过程的早期使用人类体外模型带来了另一个重要机会。依靠那些非常昂贵或耗时的数据,自然会限制人们可以进行的研究数量。这通常意味着选择研究来确认某项工作(正面数据),而不运行专门设计的研究来了解什么不工作(负面数据)。在人工智能领域,负面数据并不是一个死胡同。人工智能应用的训练集的效用往往取决于正面和负面数据之间的平衡,如果没有这两种数据,计算性能会受到影响。在现实世界中,药物开发项目可以从对疗效信号的准确预测中受益,从而更快地进入试验阶段。然而,由于缺乏负面数据,人工智能无法完全预测可能出现的问题;因此,项目最终可能会因为生物盲点而失败。
产生负面数据的一个例子是在合成和测试被预测为有毒性的分子时。从成本和时间的角度来看,药物发现公司可能很难证明这些实验的合理性。然而,回报可能是巨大的和长期的。通过提供迭代训练集来评估算法预测毒性的能力,产生这些数据间接地推动了准确性的不断提高。这反过来又可以防止病人死亡和临床试验的失败。
我们需要人类体外模型
人工智能可以在许多方面有利于早期药物的发现和开发。然而,我们需要人类体外模型来产生所需的特征丰富的数据,以解锁更有意义、与人类相关的预测能力。通过结合这两项进展,药物开发者可以克服许多持续存在的瓶颈和普遍存在的问题,这些问题会拖延或破坏他们的进展。衡量成功的最终标准不是快速发现新的候选药物,而是极大地提高临床成功的机会。
参考资料
Ushio M, Carpenter Z. AI for drug discovery is advancing rapidly: We need smart biology for it to fulfill its mission. Drug Discov Today. 2022 Jan;27(1):1-2. doi: 10.1016/j.drudis.2021.09.023.
--------- End ---------