前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >J. Cheminform. | 利用分子生成模型绕过专利限制

J. Cheminform. | 利用分子生成模型绕过专利限制

作者头像
DrugAI
发布2024-01-03 15:25:38
2310
发布2024-01-03 15:25:38
举报
文章被收录于专栏:DrugAI

今天为大家介绍的是来自Kazuyoshi Ikeda团队的一篇论文。对于制药公司来说,确认新开发化合物的专利状态至关重要,因为这不仅是知识产权的问题,也关乎药物的创新与独特性。随着AI的进步,我们能生成大量的化合物,但确认这些化合物的专利状态一直是个挑战,因为缺乏免费且易于使用的工具来及时确定生成化合物在专利方面的新颖性;此外,全球范围内也缺乏适当的制药专利参考数据库。

生成式人工智能是AI应用的一个重要方面,特别是在药物发现领域,它受到了极大的关注。目前众多生成模型已被报道,它们采用了多种方法,包括生成对抗网络、循环神经网络和Transformer等。这些AI正在演变,不仅学习和生成化学结构,还通过遗传算法、变分自编码器和强化学习等技术生成具有期望属性的分子。在药物发现过程中,包括药效活性和吸收、分布、代谢、排泄和毒性(ADMET)等属性尤为重要。已经有报道的生成式AI可以同时优化多个属性。

尽管专利信息在药物发现中是重要的信息源,但在结构生成AI中很少考虑。Subramanian等人使用带有酪氨酸激酶抑制剂专利化合物数据训练的生成式AI,生成了结构类似于FDA批准的药物(如厄洛替尼)的分子,通过计算它们的Tanimoto相似性作为要优化的属性。然而,这些生成的分子是否已获专利尚不清楚。获得知识产权,特别是实质专利,在药物发现中非常重要,以保护发现的分子。尽管专利性非常重要,但在使用生成式AI时也很少考虑。这可能是因为验证专利性需要专业知识,如使用专门的商业软件和数据库;此外,通过计算或其他方式自动验证专利性是困难的。

最近,公开的专利数据的可用性使得专利化分析方法成为可能,例如由Google提供的专利文档和SureChEMBL提供的专利–化合物信息。目前已经有研究尝试提取与药物发现相关的专利。Falaguera等人使用专利分类,Subramanian等人使用关键词搜索从美国专利商标局(USPTO)发布的专利中提取与药物发现相关的专利。然而,验证药物发现中化合物的专利性需要全球范围的方法;因此,仅使用USPTO的专利是不够的。

此项研究旨在创建一个可以使用全球专利信息指导分子化学空间探索的生成式AI。为此,从全球公开专利源收集了包含在与制药相关的专利文档中的化学结构,并纳入了与药物相关的专利化合物数据库。为了通过探索和扩展药物发现中可专利化合物的化学空间来生成新颖的分子,开发了代表生成分子可专利状态的属性计算系统。这些属性以奖励函数的形式计算,并在生成式AI中学习。

数据来源

为了开发一个能够确定生成分子是否存在于药物相关专利中的奖励函数,作者收集了与药物相关的受专利保护的化合物。作者使用2021年1月的SureChEMBL数据库作为药物相关受专利保护化合物的来源,因为它包含来自4,799,617个专利的20,000,411个化合物,涵盖了世界知识产权组织和欧洲、美国、日本的专利局。由于SureChEMBL数据库包含了与药物相关和不相关的受专利保护化合物(如食品、肥料、染料、油类和有机化合物),因此有必要仅提取与药物相关的受专利保护化合物。为了提取与药物相关的受专利保护化合物,使用了两种专利分类信息:国际专利分类(IPC)和合作专利分类(CPC)。被归类为A61K(用于医药、牙科或卫生用途的制备物)或A61P(化学化合物或药物制备的特定治疗活性)的专利被定义为与药物相关。从SureChEMBL可下载的批量数据集中提取了专利号码和专利中描述的化合物。由于可下载的数据集不包含IPC/CPC信息,因此从Google专利公共数据集中提取了专利号码及其IPC/CPC代码。然后根据它们的专利号码,将IPC/CPC信息附加到SureChEMBL上,结果得到了1,057,881个与药物相关的专利中的13,448,634个化合物。

图 1

为了实现一个能够确定生成结构是否包含在10,720,835个与药物相关的受专利保护化合物中的奖励函数,作者创建了一个与药物相关的受专利保护化合物的关系数据库(药物-专利数据库)和一个检查生成结构的搜索系统(图1)。这10,720,835个化合物的化学结构通过ChEMBL Structure Pipeline 1.0.0标准化处理。使用RDKit 2022.03.2生成了不包含立体化学层的InChIKeys,并使用SQLite 3.36.0库存储在药物-专利数据库中,以便在基于文本的搜索系统中使用。为了快速搜索,创建了InChIKey索引。药物-专利数据库包含以InChIKeys形式的与药物相关的受专利保护化合物的化学结构及其SureChEMBL条目标识符,这些都可以轻松地与SureChEMBL信息(例如,原始化学结构和专利号码)连接。

为了训练循环神经网络(RNN)生成化学结构,作者使用了ChemTSv2软件,因为它可以轻松地整合用户定义的奖励函数。ChemTS使用基于SMILES字符串的RNN生成分子结构,并利用蒙特卡洛树搜索(MCTS)探索具有所需属性的结构,这些属性被定义为奖励函数。虽然可以使用ChEMBL或ZINC等数据库中的结构作为RNN的学习资源,但该研究使用了与药物相关的受专利保护化合物的结构来训练更具特定性的受专利化合物RNN(专利RNN)。由于10,720,835个化合物超出了RNN训练的需要,因此大约选择了250,000个化合物用于此目的。

实验结果

图 2

为了选择一种能够准确匹配化合物的方法,研究比较了使用Morgan、MHFP6和InChIKey方法将SureChEMBL中随机选取的10,000个分子与药物-专利数据库中随机选取的1,000,000个分子进行匹配的计算时间。结果显示,使用Morgan、MHFP6和InChIKey方法的匹配时间分别为3.8小时、4.1分钟和7.9秒(图2)。基于文本的InChIKey方法是最快的,比基于Morgan指纹的方法快约1733倍。InChIKey方法的速度对于在ChemTS中的实际应用来说是足够的。虽然MHFP6方法比Morgan指纹方法快大约七倍,但它比InChIKey方法慢,而且需要大量内存。因此,在奖励函数中使用了InChIKey方法来识别两种化合物之间的精确匹配。

图 3

为了评估专利RNN模型在不依赖奖励函数的情况下生成分子的能力,研究评估了在使用随机奖励函数的ChemTS专利RNN模型生成的分子的有效性和独特性。使用专利RNN模型生成的前250,000个有效且独特的分子与使用ZINC RNN模型生成的分子进行了比较。专利RNN模型的平均有效性和独特性分别为0.45和0.84;ZINC RNN模型的相应值分别为0.39和0.92。这些结果表明,专利RNN模型在生成有效且独特的分子方面的性能可与ChemTS ZINC RNN模型相媲美。随后进一步评估了专利RNN模型生成受专利保护化合物的能力。与ZINC模型生成的相比,专利RNN模型在药物-专利数据库中找到的受专利保护化合物数量高出2.6倍(图3a)。这表明专利RNN模型更适合生成与药物相关的受专利保护化合物。然而,由专利RNN模型生成的与药物相关的受专利保护化合物仅占250,000个分子的小比例(2.6%)。

图 4

研究岁哦呼探讨了奖励函数对生成药物-专利数据库(DB)分子的影响,通过比较使用Rpatent奖励函数的RNN模型和使用Rnot-patent奖励函数的RNN模型生成的药物-专利DB分子的数量。在所有C值(奖励程度)条件下,使用Rpatent生成的与药物相关的受专利保护化合物的数量都高于使用Rnot-patent生成的数量(图3b)。此外,使用Rpatent生成的受专利保护化合物的数量也高于使用随机奖励函数Rrand生成的数量;同时,使用Rnot-patent生成的受专利保护化合物的数量低于使用随机奖励函数生成的数量,表明Rpatent和Rnot-patent按预期工作。

在化学空间方面,使用Rpatent和Rnot-patent生成的分子的结构指纹与药物-专利DB中的化合物进行了比较(图4)。使用Rpatent生成的大多数分子的化学空间分布在药物-专利DB化合物的化学空间内,特别是在药物-专利DB化合物密集的灰色点区域。因此,尽管使用Rpatent生成的250,000个分子并没有覆盖药物-专利DB化合物的整个化学空间,但生成了对应于相当大比例空间的分子。然而,使用Rnot-patent和C = 0.1生成的大多数分子分布在药物-专利DB化合物未占据的区域。

图 5

图 6

作者讨论了三个使用ChemTS生成的分子示例,这些分子在结构上类似于已批准的药物:双氯芬酸(diclofenac)、巴瑞替尼(baricitinib)和布雷派普拉唑(brexpiprazole)。这些分子与未包含在专利RNN模型训练数据中的已批准药物的相似度≥0.5。它们是通过使用专利RNN模型、Rpatent奖励函数和C = 0.4的条件下的ChemTS生成的,在这些条件下,大多数分子与药物-专利DB化合物相匹配。作者用ChemTS生成了双氯芬酸(图5,其八个衍生物中的六个被包含在药物-专利DB化合物中。虽然巴瑞替尼没有使用ChemTS生成,但生成了四个巴瑞替尼类似物(图6a),其中一个被专利保护。同样,布雷派普拉唑没有通过ChemTS生成,但生成了六个布雷派普拉唑衍生物(图6b),其中一个被专利保护。ChemTS能够生成与已批准药物相似的分子,但被专利保护的生成分子的百分比因情况而异。就药物样性(drug-likeness)而言,由ChemTS生成的已批准药物的结构类似物的QED(Quantitative Estimate of Drug-likeness)值取决于具体情况。双氯芬酸、巴瑞替尼及其衍生物的QED值较高。布雷派普拉唑类似物的QED不高,但大多数的QED值高于布雷派普拉唑。这些结果表明,研究开发的使用Rpatent奖励函数的生成AI能够生成具有有利的药物性质的非专利分子。

编译 | 曾全晨

审稿 | 王建民

参考资料

Shimizu, Y., Ohta, M., Ishida, S., Terayama, K., Osawa, M., Honma, T., & Ikeda, K. (2023). AI-driven molecular generation of not-patented pharmaceutical compounds using world open patent data. Journal of Cheminformatics, 15(1), 1-11.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-12-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档