前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Nucleic Acids Res. | ChemFH:一个用于过滤潜在泛实验干扰假阳性化合物的综合工具

Nucleic Acids Res. | ChemFH:一个用于过滤潜在泛实验干扰假阳性化合物的综合工具

作者头像
DrugAI
发布2024-06-04 19:10:51
1170
发布2024-06-04 19:10:51
举报
文章被收录于专栏:DrugAIDrugAI

DRUGAI

药物开发通常是一个耗时且昂贵的过程。为了提高效率,高通量筛选(HTS)和虚拟筛选(VS)技术被广泛应用。然而,HTS仅能识别出筛选数据库中的0.01%至0.1%的真阳性化合物,而超过95%的阳性结果可能是假阳性。这些假阳性化合物被称为频繁命中化合物(FH),常见的假阳性干扰包括胶体聚集、光谱干扰和易反应化学性质等。针对这些挑战,中南大学湘雅药学院的曹东升教授课题组与湖南大学曾湘祥教授、以及香港浸会大学的吕爱平教授在Nucleic Acids Research上发表了题为“ChemFH: An Integrated Tool for Screening Frequent False Positives in Chemical Biology and Drug Discovery”的文章。该研究提出了ChemFH,一款全面预测和筛选各类潜在FH的在线平台,有助于提高药物发现效率。平台地址:https://chemfh.scbdd.com/。

背景介绍

2014年Baell等人在《自然》杂志上发表了题为“Chemistry: Chemical con artists foil drug discovery”的评论文章。该文章强调了干扰化合物对测定结果的影响,并恰如其分地称之为“化学骗子”,这些骗子阻碍了药物开发过程,导致了大量的研究时间和资源浪费。2017年,美国化学学会期刊的九位主编在题为“The Ecstasy and Agony of Assay Interference Compounds”的论文中进一步强调了由实验干扰引起的假阳性化合物所造成的危害。该论文建议研究人员对潜在的假阳性保持警惕,并强调了确认阳性筛选结果真实性的必要性。因此,认识和解决高通量筛选中假阳性频繁出现的问题对于降低无效投资、提高筛选命中率和增强药物开发效率至关重要。

为了降低假阳性率,目前已有一些实验技术,例如添加表面活性剂和使用清除试剂等。然而,这些方法需要耗费大量的时间和金钱。因此,利用计算工具进行初步筛选更为有效。而当前尽管已经有了一些代表性的过滤方法,如PAINS等,但它们存在一定的限制,如较小的基础数据集、模糊的子结构筛选端点等。因此,需要开发更精准而全面的FH预测模型。

数据收集

我们对相关文献和数据库进行了彻底的搜集和整理,包括 ZINC、ChEMBL、BindingDB 和 PubChem Bioassay,并整理成了一份全面的FH化合物数据集。此外,我们还特别收集了负样本集,以确保数据集的质量。经过严格的准备工作,包括消除盐和缺乏结构的化合物,将所有化合物在 pH 7.0 下标准化,去除重复分子,并排除同时出现在正样本和负样本数据集中的化合物。最终,我们整理了一个包含了823,391个化合物,用于模型开发和子结构筛选的数据集。为了评估化合物数据的多样性,我们进行了 Murcko 骨架分析,发现了丰富多样的骨架,确保了 ChemFH 在 FH 预测中的准确性和稳健性。

模型构建

ChemFH采用了有向消息传递神经网络(DMPNN),它利用基于键的卷积来学习分子编码,避免了不必要的消息传递循环。多任务的DMPNN通过利用跨多个任务的共享信息,普遍优于单任务DMPNN,从而提高了性能和运行效率。此外,最近的研究表明,将DMPNN与外部特征相结合可以增强性能。因此,除了原始的DMPNN模型外,我们还构建了两个额外的模型进行对比:DMPNN-Des和DMPNN-FP,即分别将RDKit 2D描述符和Morgan指纹结合到DMPNN中。模型采用Adam优化器进行训练,并使用贝叶斯优化进行超参数调优。随后使用了AUC、ACC、BA、SP、SE和MCC等指标对模型性能进行了评估。

警示子结构规则的构建

警示子结构规则对FH检测也至关重要。为了对QSAR模型进行补充和增强以及增强ChemFH的可解释性,我们利用PySmash在数据中提取出了102个代表性警示子结构。除此之外,ChemFH还提供了十种常用的FH筛选规则。需要注意的是,仅依赖子结构规则通常不可靠,应谨慎使用,并将其作为辅助工具以配合其他方法一起使用。

不确定性估计

在预测模型中估计不确定性对于辅助决策和风险控制至关重要。ChemFH使用蒙特卡洛drop-out来估计不确定性,生成具有不同随机掩码的预测分布。在本研究中,我们使用最大优登指数对预测不确定性进行分类:超过阈值的不确定性标记为“Low-confidence”,而低于此阈值的被归类为“High-confidence”。

ChemFH的工作流程

ChemFH提供了用户友好的网页界面,用于FH评估,包括模型预测和子结构警示。针对评估单个或批量分子,提供了两种输入选项用于FH评估:评估模式和筛选模式。评估模式允许用户输入单个SMILES字符串或绘制分子结构;筛选模式适用于多分子的潜在假阳性的干扰检测,支持文件上传。输出结果包括可视化、频繁命中机制和规则,以CSV格式下载。同时,ChemFH还提供PDF报告,详细解释每个FH机制和常用的FH筛选规则。在FH筛选模式下,网页结果以列表形式呈现,用户可点击查看详细评估。具体流程相关见图1。

图1. ChemFH的服务器工作流程

应用程序编程接口(API)

ChemFH的API为研究人员提供了高效的命令行访问,并有助于处理庞大的数据集。通过与流行编程语言兼容的成熟协议,简化了与Web服务器的交互。用户可以使用简单的脚本方便地检索全面的结果。网站的“API Tutorial”部分提供了详细的代码示例。ChemFH的API接收SMILES字符串,并返回七种机制和十个FH筛选规则的FH预测结果。筛选结果中还返回了FH规则筛选的警示子结构。API的灵活性鼓励研究人员将其功能用于各种应用,如仓库、图形用户界面和用于FH评估的Web应用程序等。

FH模型的预测性能

本研究使用Chemprop构建了三个FH预测模型来预测七类FH,这三个模型包括DMPNN、DMPNN-Des和DMPNN-FP。为确保预测模型的泛化能力,我们将收集的数据集按8:1:1的比例划分为训练、验证和测试集。为获得稳定的预测性能结果,在训练之前我们对数据集进行了十次划分,并计算了每个统计量的标准偏差。不同模型对不同FH机制的预测性能总结在表1中。

表1. 三个模型在七类FH任务上的预测表现

从表1中可以看出,所有预测模型均表现出较高的FH检测能力,平均AUC和精确度分别为0.91和0.88。总体而言,三种类型的模型表现相当,其中DMPNN-Des模型在七种FH机制中有五种表现更好。基于以上性能,ChemFH采用DMPNN-Des模型作为最终的优选预测模型。

为验证ChemFH平台对具有各种干扰机制的化合物的识别能力,我们在外部数据集上进行了FH评估,包含75个化合物,代表七种不同的机制。结果显示,每种机制的模型都能准确识别符合其干扰机制的分子。其中,只有两个反应性化合物和两个多功能化合物被错误分类。进一步观察结果发现,这些分子通常同时具有多种机制,表明在选择化合物时需谨慎考虑多种干扰机制的影响。

图2. 热图显示ChemFH对75个具有不同干扰机制的化合物的预测结果。

案例研究

大型数据库的筛选

商业可用的化学库提供了探索类药化合物化学空间的高效且经济有效的方法。为了全面了解这些库中FH 的比例和分布,我们利用ChemFH在五个广泛使用的虚拟筛选库上对七种机制进行了筛选,每个库包含的化合物数量从500,000到1,800,000不等。测试的数据库包括Asinex(522,390个化合物)、Chembridge(1,557,938个化合物)、ChemDiv(1,418,192个化合物)、COCONUT(1,779,483个化合物)和Life Chemicals(509,974个化合物)。

图3. 五个大型数据库筛选结果在七种机制上的分布情况。

图3描述了四个商业数据库和一个天然产物数据库中七种FH机制的整体预测结果分布情况,结果之间显示了类似的趋势。在这五个数据库中,胶体聚集物构成了阳性预测结果的主要部分。这与胶体聚集被广泛认识为是导致HTS假阳性结果的主要因素相符合。其次是蓝/绿色荧光化合物、Fluc抑制剂和其他干扰化合物,其中药理学混乱化合物和易反应化合物占较小比例。

对姜黄素和毛壳素的评估

为了进一步证明ChemFH的实用性和可靠性,我们评估了两种代表性的天然产物姜黄素和毛壳素,它们以其治疗潜力和假阳性特征而闻名。姜黄素源自姜黄,受到生物医学研究的广泛关注,但在临床试验中显示出低效特征,表明存在潜在的假阳性。ChemFH预测结果显示姜黄素具有胶体聚集、化学反应性和FLuc抑制活性,与实验结果一致。毛壳素最初被确定为组蛋白甲基转移酶抑制剂,后来证明具有非选择性和蛋白质反应性。ChemFH预测毛壳素显示其具有胶体聚集、蓝色荧光、化学反应性和其他测定干扰,与其已知属性一致。当然,对化合物干扰的最终确定需要采用正交的湿实验方法。

对FDA批准的药物的评估

许多FDA批准的药物据报道具有频繁命中者或干扰剂属性。为了评估ChemFH在这方面的预测能力,我们首先从训练数据中排除了FDA批准的药物,重新训练了模型,然后对从DrugBank收集的2575种FDA批准的药物进行了虚拟筛选。结果显示,约30.87%的FDA批准药物具有至少一种FH特征,但通过保留高置信度的结果,FH的整体百分比降至6.68%,这与经验中FH在药物中的比例接近。此外,我们还用ChemFH重新评估了已知具有FH性质的169种药物或临床试验化合物,结果显示平均预测精确度为0.923。

与其他在线平台的比较

我们将ChemFH与其他频繁命中化合物预测平台进行了比较。结果显示ChemFH在机制覆盖、实用性和效率方面表现出色。它的处理速度明显优于其他平台,而且提供了批量评估和独立API的支持,并提供带有不确定性分数的预测结果等。大多数平台侧重于单一的FH机制,而ChemFH则覆盖了多种机制。比较结果详见表2。

表2. ChemFH的主要性能与其他相关平台的比较

总结

假阳性结果会严重干扰命中化合物的筛选,浪费时间和资源。为解决这一问题,我们开发了ChemFH,一个用于预测化合物假阳性结果的在线平台。它整合利用了图神经网络构建预测模型,并且结合了1441个警示子结构和十个常见子结构的筛选规则,促进了假阳性评估的准确性和稳健性。此外,该平台包含了可用于工作流集成的API和用于辅助最终决策的的不确定性估计方法。覆盖机制广泛、预测结果精确、预测速度快以及用户友好的功能和设计等特点使得ChemFH能高效地筛选出潜在的假阳性以提高药物发现的成功率。

参考资料

Shi S, Fu L, Yi J, et al. ChemFH: an integrated tool for screening frequent false positives in chemical biology and drug discovery. Nucleic Acids Res. Published online May 23, 2024. doi:10.1093/nar/gkae424

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-05-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档