前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >榕树集-天然产物领域的AI研究

榕树集-天然产物领域的AI研究

作者头像
DrugSci
发布2023-12-09 14:39:38
2560
发布2023-12-09 14:39:38
举报
文章被收录于专栏:FindKeyFindKey

简介

计算的发展为探索天然产物的潜在多样性提供了新手段,揭示了其药物研发方面的新潜力。 与此同时,人工智能方法同样也突飞猛进,在生物活性预测和药物设计领域都取得了很大的进展。本文介绍一篇发表于9月11日的综述。主要介绍了当前天然产物领域AI的发展以及面临的挑战。‍‍‍

介绍:

细菌、真菌、植物和动物产生各种各样的代谢产物,统称为称为天然产物。这些产物包括数十万种不同的化学结构,包括肽类、聚酮类、糖类、萜类和生物碱,它们有助于生物体适应环境。

在历史上,这些天然产物被作为抗生素、化疗药物、免疫抑制剂和农药成功应用。截止到现在,天然产物仍然是hit的潜在的重要的来源。主要基于以下两点原因:1,相对较高的三维度(与通常“平面”合成的化学结构相对),使其可以挑战有一定难度的药物靶点。2,由于其作为自然代谢产物的特性,使其可以有可能成为辅助药物到达靶点的转运系统的相关低物。

在1990-2010年之间,基于组合化学和高通量筛选的崛起,工业界中的天然产物热度有所下降,但是今年来在学术界和小型生物初创公司中,天然产物研究则呈现出复兴的趋势。复兴的趋势得益于大规模组学数据研究和使用,这使得人类可以更为深入的了解生物体内隐藏的化学宝库。细菌,真菌(以及一些植物和动物)中的大多数的代谢产物合成途径基因通常在基因组内以簇的形式出现,已经有超过2500个生物合成基因簇(biosynthetic gene clusters,BGC)以及他们的产物被实验验证。而计算基因组可以分析出数百万新分子的BGC,基于AI的方法则被用于预测其化学结构,并且这些数据变的标准化,被存储于公共数据库中。

世界就是一个轮回

在大数据的环境下,AI可以有效加速天然产物的药物研发,其核心是提供大量(蛋白)靶点和化学结构的生物活性数据的公共数据库。基于化学相似性,ML技术可以利用这些数据获得模型,并预测出潜在hits。此外,还可以用于分析从分子动力学研究中产生的大型数据集,并识别蛋白质动态变化中的隐藏模式。这推动了对小分子与蛋白质之间复杂相互作用的理解。例如,包括de novo设计,药物重定位,并修改和优化药物分子结构。

本文首先描述了AI在天然产物研究中的应用,包括蛙君基因组和代谢组,天然产物的结构表征以及对天然产物的靶点和生物活性的预测。本文也讨论了实现人工智能在该领域一个关键挑战——建立和维护大型、高质量的数据集来训练算法——以及如何解决这个问题。本文还考虑了训练算法时的一些陷阱,如过拟合,并探讨了避免这些问题的方法。

AI在天然产物领域的应用

主要应用于三个方向:

1. 天然产物基因组和代谢组挖掘

已经开发了多种人工智能技术,通过从序列信息或光谱数据中预测生物合成基因和代谢产物结构,从而达到加速天然产物的发现。 目前,鉴定天然产物的基因簇(BGCs)仍然主要依赖基于规则的方法,例如 antiSMASH ,PRISM 。这些方法在检测已知的BGC类别方面很成功,但在识别新型BGC方面效率较低。 在更为复杂的情况下,机器学习算法比基于规则的方法更具有显著优势。例如,基于隐马尔可夫模型的 ClusterFinder、基于深度学习的DeepBGC、GECCO 和 SanntiS,都使用深度学习或SVM来识别通过传统规则无法捕获的BGC。这些方法是基于序列特征进行训练的,例如基因家族、蛋白质结构域和氨基酸序列属性。尽管它们的假阳性率仍然高于基于规则的方法,并且在已知类型的BGC中也存在假阴性,但它们已经在识别新型天然产物生物合成途径方面展现出了实用性。

2. 天然产物的结构特征

天然产物药物发现需要能够明确解析分离出化合物的结构。由于自然界中的存在的代谢产物的化学复杂性,这项任务颇具挑战性。结构阐明需要收集、分析和编制多种数据类型,这可能包括核磁共振(NMR)、红外(IR)、紫外(UV)、电子圆二色性(ECD)和X射线光谱、高分辨率质谱(HRMS)、MS/MS,以及对BGC中编码的酶进行实验和计算检查。最近,微晶电子衍射(MicroED)技术可以分析化合物的亚微米晶体来加速结构解析。

总体而言,方法学、仪器学和计算方法,有着大量的改进天然产物的结构表征的应用,例如基于量子化学的理论计算和基于人工智能的从MS和NMR数据预测结构。自1960年以来,人工智能已经被用于在MS数据中补充基于上述规则的方法,以新的方式识别未知化合物。随后,人工智能已被用于从MS谱中预测分子式,使用深度神经网络将MS谱与分子数据库中的化合物进行匹配,从MS/MS谱中阐明结构为新型SMILES字符串,以及从MS和 collisional cross section(CCS)数据中预测化学性质和进行小分子识别。同样,人工智能已被用于补充基于NMR的结构注释。

3. 靶点预测和生物活性

在天然产物药物发现中,人工智能最重要的应用是预测天然产物的大分子靶点、它们的生物活性和潜在的毒性。对这些性质的预测可以直接提供线索,探索出最具前景的化学空间。目前的BGC列表过于庞大,没有好的方法用于探索实际有潜力的部分,而AI很好的解决了这个问题。

数据来源和数据标准化

高质量的训练数据集对于AI算法的成功至关重要。非结构化数据集(例如未注释的质谱数据)可应用于无监督学习,如降维和生物活性预测。相比之下,监督学习需要标注准确并且足够量的数据。对于天然产物而言,其化学空间的广度较大,但已发布数据集的大多数覆盖范围较小,这是一个挑战。数据增强和数据生成虽然是有价值,但需要谨慎应用,以避免积累bias。此外,数据错误也是挑战。在许多实验室生成的生物学公共数据中,往往存在多个错误来源,可能会影响高度敏感的深度学习方法。整合来自不同数据集的数据,并确保注释方法一致,是机器学习训练集开发的一个主要瓶颈。

天然产物数据库的庞大而多样,但也高度分散,目前全面的高质量数据资源较少。而且,天然产物相关的数据在大多数大型综合数据库(如PubChem、ChEMBL、Reaxys和Scifinder)中往往被忽视或未被注释为天然产物;例如,截至2023年1月,根据Wikidata的数据,只有8,951个天然产物具有ChEMBL标识符。此外,在大多数天然产物数据库中,数据来源、文档更改(即数据溯源),通常没有很好地维护。此外,尽管一些数据库(如ChEMBL和BindingDB)包含化合物的生物测定数据,但很少有数据库包含天然产物提取物的生物测定数据。最后,一些天然产物数据库缺乏完整数据下载的选项,或者未经许可不允许学术团体使用。总体而言,这些问题严重限制了可用于训练AI模型的数据集的获取。

Garbage in, garbage out

总结和展望

总的来说,天然产物药物发现领域的人工智能(AI)研究主要受限于大型高质量数据集短缺,而并不是创新算法的缺乏。对于该领域的建议,本文警示不要仅仅因为其“炒作”效应而使用新算法。本文建议在选择适合的数据类型和算法时要仔细考虑;例如,天然产物数据集通常比通用计算机视觉相关数据集要小得多,这可能意味着参数较少的简单模型可能更成功,也更不容易过拟合;在AI中,奥卡姆剃刀原理往往更有用。

话虽如此,但是该领域的突破往往是跨学科途径,借鉴来自其他领域的算法,例如自然语言处理(NLP)。算法尤其需要从多输入的异构数据源(包括化学光谱、DNA序列、结构和生物活性信息)中提取有意义的特征。该领域的另一个潜在机遇是采用“主动学习”方法生成数据集。通过这种方式,可以对序列、化学、结构或生物活性空间中尚未开发的领域进行表征。同时还需认识到,AI方法通常无法检测到完全Novel的化学实体,作用机制或酶的全新催化活性。需要对基础生化研究加大投资,以用以补充AI。

数据驱动的AI研发依赖于底层数据库的维护。但是具有讽刺意味的是,尽管AI完全依赖于高质量的数据,但长期和稳定的财政支持以维护数据库是经常难以获得的。因此,对于未来的AI研发,本文认为国际和国家资金机构应继续支持数据库的维护。由于与天然产物研究相关的数据类型众多,单一的整体数据库不太可能满足天然产物的需求。相反,专注自然产物数据不同方面(如结构、BGCs、光谱数据和生物活性)的存储库必须致力于改进互操作性,以开发数据资源的分布式网络。这种互操作性不仅必须涉及数据库之间的条目连接,还必须考虑集成数据存储和采用核心数据类型的常见标准化协议。从结构生物学的PDB和X射线晶体学的剑桥结构数据库等其他科学领域的存储库结构和策略中可以学到很多。

最后,本文强调全球科学界的集体资源远远超过任何单个实验室的能力。

参考

Mullowney, M.W., Duncan, K.R., Elsayed, S.S. et al. Artificial intelligence for natural product drug discovery. Nat Rev Drug Discov 22, 895–916 (2023). https://doi.org/10.1038/s41573-023-00774-7

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2023-12-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugSci 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 简介
  • 介绍:
  • AI在天然产物领域的应用
    • 1. 天然产物基因组和代谢组挖掘
      • 2. 天然产物的结构特征
        • 3. 靶点预测和生物活性
        • 数据来源和数据标准化
        • 总结和展望
        • 参考
        相关产品与服务
        数据库
        云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档