首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >DrugGPT快速探索化合物空间助力药物研发

DrugGPT快速探索化合物空间助力药物研发

作者头像
DrugOne
发布2023-09-19 14:33:48
发布2023-09-19 14:33:48
6560
举报
文章被收录于专栏:DrugOneDrugOne

编译 | 于洲

今天我们介绍由西安交通大学第一附属医院的Yuesen Li发表在BioRxiv上的工作。该工作提出了一种基于自回归模型GPT的配体设计策略DrugGPT,该模型专注于化学空间的探索和特定蛋白质的配体发现。深度学习语言模型在蛋白质设计和生物医学文本分析等领域展示了显著的潜力,为DrugGPT的提出提供了有力支持。在本文中,研究者采用DrugGPT模型学习了大量的蛋白质-配体结合数据,旨在发现能够与特定蛋白质结合的新型分子。这一策略不仅极大地提高了配体设计的效率,还为药物开发过程提供了快速有效的途径,为制药领域带来了新的可能性。

背景介绍

在过去几十年中,计算化学和生物信息学取得了显著的进展,对药物发现领域产生了重大影响。然而,揭示和开发新型药物的旅程仍然面临巨大的挑战和高昂的成本。其中一个主要挑战是化学空间的庞大程度。从理论上讲,潜在的药物样化合物的数量接近无限,使得对这个化学空间的全面和有效探索变得异常困难。

尽管传统的计算机辅助药物设计策略,如分子对接、定量构效关系(QSAR)、药效团建模、无监督学习、深度学习和生成对抗网络(GANs)在一定程度上缓解了这个问题,但对这个巨大化学空间更有效的探索需求需要发展创新的方法和策略。

近年来深度学习技术的出现在药物发现领域引入了新的机会。例如,Atomwise公司利用基于深度卷积神经网络的AtomNet技术进行药物发现。Insilico Medicine公司成功地利用GANs和深度学习方法生成潜在的药物活性候选化合物。与此同时,学术界也报道了基于深度学习的药物发现模型取得了成功,例如由Gupta等人研究的生成递归网络,由Méndez-Lucio等人介绍的基于人工智能的药物活性分子生成方法,以及由Popova等人开发的深度强化学习方法。尽管取得了这些成功,化学空间的庞大仍然需要更有效的解决方案。

为了更有效探索化学空间,本文提出了DrugGPT模型,在DrugGPT模型中对蛋白质和配体进行了分词。例如,在考虑了包含超过20亿化合物的ZINC20数据库之后,本文发现只需要5,373个标记就能准确表示这些化合物,这是通过应用字节对编码(BPE)算法得出的。这一发现表明,尽管可能的化合物数量接近无限,但表示这些化合物的词汇是有限的。通过使用DrugGPT进行学习,可以掌握这些有限词汇的组合和排列方式,从而有效地探索这个广阔的化学空间。

DrugGPT模型采用自回归生成的方法,这种方法利用模型的输出作为输入进行预测,增强了捕捉化学结构和活性关系的准确性,并提高了生成化合物的质量。通过自回归生成方法,模型表现出更强的稳定性,在训练过程中更容易进行优化和调整。

图1:使用DrugGPT的示意图。第一步是“选择输入类型”,用户有“蛋白质氨基酸序列”、“蛋白质氨基酸序列+配体提示”和“无”三种选择。一旦选择了适当的输入类型并提供了相应的输入,就会生成输入原始文本。第二步涉及使用DrugGPT标记器来处理输入的原始文本,从而形成input id。在第三步中,将输入id输入到DrugGPT模型中,生成输出。在最后一步,这个生成的输出进行后处理,最终产生预测的药物。

本文的创新点与贡献:

  1. 通过重新设计分词器和从头重新训练,优化了GPT-2模型,生成了专注药物设计任务的DrugGPT模型。
  2. DrugGPT能更准确地捕捉药物分子与蛋白质结合信息,有效生成潜在活性药物。
  3. DrugGPT采用最大化条件概率和反向传播训练,并具有强大的泛化能力。

实验结果

配体的标记化

本文采用了字节对编码(BPE)算法对来自两个数据库的配体进行标记化。考虑到ZINC20数据库中的20亿个化合物,本文发现只需要5373个标记就能表示这些分子。这意味着BPE算法可以用有限的词汇高效表示大量化合物。本文还分析了已经与蛋白质结合的配体,这些配体来自另一个数据库。在应用BPE算法标记这些配体后,发现3560个标记足以准确描述这些已经与蛋白质结合的配体。这3560个标记不仅可以表示第二个数据库中的配体,还可以覆盖ZINC20数据库分子,以及描述可开发成药物的分子。在DrugGPT训练的第一阶段,本文使用这3560个标记来表示化合物,不仅增强了模型表示实际配体能力,还降低了计算复杂性。实验结果表明,使用从已知蛋白质相互作用的配体中提取的缩减词汇表,可以增强药物发现效率和适用性。

蛋白质的标记化

本文也应用BPE算法对蛋白质进行标记化。但与配体不同,蛋白质的复杂性远超过配体。在对一个蛋白质数据库中的1.8万多个蛋白质序列使用BPE算法后,生成了130多万个蛋白质标记。这说明蛋白质氨基酸序列比配体更加复杂。考虑到自然界中的2000万个蛋白质,如果都应用BPE算法,生成的词汇表将非常庞大。从生成的词汇表大小的角度来看,大约每两个蛋白质序列产生一个标记,进一步证明了蛋白质序列的复杂性。本文借鉴了GPT-2模型,设置蛋白质的词汇表大小为5万。同时本文使用“

+蛋白质序列++配体SMILES”表示文本,然后进行BPE标记化。由于蛋白质比配体更复杂,需要更大的词汇表来表示。这种方法还避免了重复蛋白质的出现。总之,本文使用BPE算法对蛋白质进行了标记化,并设置了相对较大的词汇表大小,以更好地表示蛋白质序列的复杂性。这一步为后续DrugGPT模型的训练提供了重要的数据基础。

构建DrugGPT标记器

在构建DrugGPT的词汇表时,本文首先对配体和蛋白质的词汇表进行了并集操作。由于SMILES表示和氨基酸序列中存在重叠的字符,这意味着这两个词汇表中存在相同的标记。在合并这些词汇表时需要处理这些重复的标记。BPE标记器包括两个文件:vocab.json(用于存储标记)和merges.txt(用于记录标记的合并操作)。在配体和蛋白质的标记器中检查了这两个文件,并且删除了相同的标记和具有不同合并操作的相同标记。

图2:DrugGPT标记器的构建过程。DrugGPT标记器是基于Hugging Face的jglaser/binding_affinity数据库构建的。首先,使用BPE算法对数据库中的蛋白质氨基酸序列和配体SMILE进行处理,创建蛋白质标记器。随后,使用BPE算法对数据库中的配体SMILES进行类似处理,形成配体标记器。最后,合并蛋白质标记器和配体标记器,删除两者中存在的任何重复标记,从BPE算法中排除初始标记。

在BPE标记化算法后删除了重复的标记,然后使用初始的256个字符来补充标记,弥补重复标记删除造成的缺口。通过这些步骤,成功构建了包含53080个标记的DrugGPT标记器。在标记化前,原始文本的平均长度为700,90%不超过1213。但在标记化后,序列长度减小,平均长度降至200,只有1.3%超过768。这表明标记后的长度与原始文本长度有更合理的分布,有助于DrugGPT模型的训练。总的来说,通过合并蛋白质和配体的词汇表、处理重复标记和补充字符,成功构建了DrugGPT的标记器。这不仅有效地整合了词汇表,还导致序列长度有更合理的分布,为后续模型的训练和应用奠定了重要的基础。

图3:DrugGPT标记器减少了序列的长度。(a)和(b)分别描绘了获得蛋白质配体原始文本之前配体SMILES长度和氨基酸序列长度的频率直方图。(c)描述了原始文本的文本长度与频率的关系,原始文本是对jglaser/binding_affinity数据库中的数据进行'' +'

' +蛋白质序列+'' +配体的SMILES序列+''处理后得到的。(d)说明了输入id的令牌长度和频率之间的关系,这些id是在使用DrugGPT令牌器处理(c)中的原始文本后获得的。通过比较(c)和(d)可以观察到,在使用DrugGPT标记器处理后,标记的长度明显小于原始文本的长度。这大大减少了输入到DrugGPT模型的长度,从而大大减少了训练的计算开销。

训练DrugGPT模型

图4:DrugGPT的构建过程。每个epoch内的DrugGPT训练分为两个步骤。第一步,数据来源于ZINC20,用ZINC20生成相应的配体原始文本。然后使用DrugGPT标记器派生配体输入id,使模型能够学习如何准确地表示化合物并了解其固有的化学结构和性质。第二步使用来自jglaser/binding_affinity数据库的数据来创建相应的蛋白质配体原始文本。再次使用DrugGPT标记器,获得蛋白质配体输入id,从而教会模型如何为特定蛋白质生成相应的化合物。一旦设置了训练参数,GPT2模型就会从头开始训练,以生成DrugGPT模型。

在训练DrugGPT模型时,本文使用了Hugging Face提供的强大NLP库transformers和datasets,这极大提高了效率。选择了GPT2LMHeadModel作为基础模型,并且采用从头开始训练,而非微调预训练模型,这是为了更好捕捉配体和蛋白质的结构信息。总共设计了两个阶段训练:第一阶段以配体文本训练,使模型学习表示配体和理解化学结构。第二阶段以蛋白质-配体对文本训练,使模型能为蛋白质生成相应配体。经过五个训练时期,模型损失在验证集上降至0.04,这表明模型掌握了有用信息。使用NVIDIA RTX 4090显卡来加速训练,同时设置了AdamW优化器和合理的超参数,最后成功训练出了DrugGPT模型。结果表明,模型已经准备好在配体发现领域提供帮助。这为药物发现领域的进一步研究与实践奠定了坚实的基础。简单来说,通过使用NLP库、从头训练、分阶段训练、硬件加速、合理超参数等方法,成功训练出了DrugGPT模型,这为后续药物发现工作提供了支持。

模型推理和配体设计策略

DrugGPT模型被用于探索配体设计的潜能。设计了三种推理方法用于设计蛋白质的配体:

  • 只基于给定蛋白质序列
  • 基于给定蛋白质序列并提供配体SMILES格式信息作为提示
  • 不提供任何信息,允许模型自主生成配体在第一种方法中,直接输入蛋白质氨基酸序列或FASTA格式;在第二种方法中,提供配体SMILES格式的信息作为提示;在第三种方法中,不提供任何信息,观察模型自主生成的配体方案。DrugGPT Notebook 和命令行界面实现了以上三种推理模式。三种推理方法可根据需求选择,完成不同蛋白质的配体设计。简单来说, 通过提供不同类型的信息作为输入,采用不同的推理方法,设计适用于各种蛋白质的配体。

BCL-2蛋白质的配体设计

本文选择BCL-2作为一个重要的抗癌药物靶点,以展示配体设计模型DrugGPT在探索潜在抗癌配体方面的能力。BCL-2是一种抗凋亡蛋白质,通过抑制细胞凋亡过程促进肿瘤细胞的存活。BCL-2在许多类型的癌症中发挥关键作用,特别是在慢性淋巴细胞性白血病(CLL)和非霍奇金淋巴瘤等血液肿瘤中。因此,BCL-2被认为是一个具有重要治疗价值的潜在抗癌药物靶点。本文使用以下命令开始模型的推理过程:python drug_generator.py -f bcl2.fasta -n 50。该命令指示模型为BCL-2生成至少50个可能的配体,并以sdf格式返回它们的三维结构。最终,模型成功返回了73个可能的配体。这些配体的SMILES表示通过以下20个示例进行展示,如下所示:

表1:DrugGPT生成的对于BCL-2的20个潜在配体的SMILE表示

本节的实验结果展示了DrugGPT在为特定蛋白质设计配体方面的能力,为药物发现领域的未来研究提供了新的工具和方法。

具有针对BCL-2蛋白质的配体提示的配体设计

本文引入了一个新颖的概念,称为“配体提示”,以实现对配体结构的定制化。本质上,这个提示是用户希望包含在配体的SMILES表示中的特定初始部分。使用这种策略,本文可以为特定的蛋白质设计配体,并指定它们的初始部分,使得对特定化学基团的调整和优化成为可能。为了验证这种策略,本文设定了一个目标,即设计以“COc1ccc(cc1)C(=O)”开头的配体。本文执行了以下命令:python drug_generator.py -f bcl2.fasta -l COc1ccc(cc1)C(=O) -n 50,以生成至少50个具有这个特定结构作为起始部分的配体。基于BCL-2蛋白质的FASTA序列和指定的SMILES起始部分,这个命令成功生成了54个潜在的配体。下表展示了20个选定配体的SMILES表示:

表2:基于BCL-2 Fasta序列和指定起始部分的DrugGPT生成的20种潜在配体的SMILE表示

所有生成的配体都以“COc1ccc(cc1)C(=O)”开头,这证明该配体提示策略可以成功定制特定的化学基团。用户可以根据需要进一步调整这个起始化学基团后面的分子结构来优化配体,或直接创建一个新的配体。上述过程演示了如何使用配体的SMILES表示和用户指定的起始结构(即配体提示)为特定蛋白质生成配体。这种方法既灵活又可定制,为配体设计提供了一种有效的策略。

直接推理的应用:ENPP2配体设计

本文采用了一种有趣的方法,称为直接推理,该方法反映了模型在学习近190万个蛋白质-配体对之后最有可能输出的结果。这种推理显示了DrugGPT模型倾向为哪些蛋白质生成哪些配体。在本次运行中,设置参数为至少返回200个配体,最终返回了201个配体,但在生成这201个配体时保留了1061个直接推理方案。分析这些方案,本文发现最多的设计配体是为具有以下序列的蛋白质设计的:

MARRSSFQSCQIISLFTFAVGVNICLGFTAHRIKRAEGWEEGPPTVLSDSPWTNISGSCKGRCFELQEAGPPDCRCDNLCKSYTSCCHDFDELCLKTARGWECTKDRCGEVRNEENACHCSEDCLARGDCCTNYQVVCKGESHWVDDDCEEIKAAECPAGFVRPPLIIFSVDGFRASYMKKGSKVMPNIEKLRSCGTHSPYMRPVYPTKTFPNLYTLATGLYPESHGIVGNSMYDPVFDATFHLRGREKFNHRWWGGQPLWITATKQGVKAGTFFWSVVIPHERRILTILQWLTLPDHERPSVYAFYSEQPDFSGHKYGPFGPEMTNPLREIDKIVGQLMDGLKQLKLHRCVNVIFVGDHGMEDVTCDRTEFLSNYLTNVDDITLVPGTLGRIRSKFSNNAKYDPKAIIANLTCKKPDQHFKPYLKQHLPKRLHYANNRRIEDIHLLVERRWHVARKPLDVYKKPSGKCFFQGDHGFDNKVNSMQTVFVGYGSTFKYKTKVPPFENIELYNVMCDLLGLKPAPNNGTHGSLNHLLRTNTFRPTMPEEVTRPNYPGIMYLQSDFDLGCTCDDKVEPKNKLDELNKRLHTKGSTEERHLLYGRPAVLYRTRYDILYHTDFESGYSEIFLMPLWTSYTVSKQAEVSSVPDHLTSCVRPDVRVSPSFSQNCLAYKNDKQMSYGFLFPPYLSSSPEAKYDAFLVTNMVPMYPAFKRVWNYFQRVLVKKYASERNGVNVISGPIFDYDYDGLHDTEDKIKQYVEGSSIPVPTHYYSIITSCLDFTQPADKCDGPLSVSSFILPHRPDNEESCNSSEDESKWVEELMKMHTARVRDIEHLTSLDFFRKTSRSYPEILTLKTYLHTYESEI

对该序列进行BLAST分析得到以下结果:

图5:BLAST结果为直接推断结果中为其设计的配体最多的蛋白质。BLAST分析表明该序列与ENPP2的氨基酸序列一致。

这表明DrugGPT模型极度倾向于为ENPP2设计配体。在最终返回的201个配体中,有167个配体是为ENPP2设计的。随后,本文登录BindingDB并下载了当前数据库中与ENPP2相关的所有2685个配体。在这些设计的配体中,有112个与现有配体匹配,55个是完全新设计的配体,不包含在这2685个配体中。这112个匹配配体可以理解为DrugGPT模型学习到了这些蛋白质-配体文本,并且能够再现这些蛋白质-配体文本,这证明本文对DrugGPT模型的训练是充分的。这55个新设计的配体分子表明,即使在学习了大量ENPP2配体分子之后,模型仍然可以避开众多现有的配体分子,创造性地设计全新的配体分子,展示了训练有素的DrugGPT模型的创造力。此外,本文还注意到ENPP2在癌症、炎症性疾病和纤维化等多种疾病中发挥着重要的生物学作用,发现更有效的ENPP2抑制剂具有重要的临床意义。然而,当前针对ENPP2的药物选择仍然有限,许多药物在疗效、安全性和副作用方面需要进一步优化。在这种情况下,本文的研究揭示了DrugGPT模型在药物开发领域的巨大潜力。

生成配体后的后处理

图6:生成配体的后处理程序。最初,使用DrugGPT标记器对模型输出进行解码,从而得到预测的文本。随后,对预测文本进行拆分,提取“”之后的部分,表示配体的SMILES。最后,Open Babel用于筛选和转换配体的SMILES格式。

在生成配体后,本文对SMILES字符串进行筛选排除不合理配体,将通过条件筛选的SMILES转换为SDF格式并生成3D构象。这可以确保文件名不受限制,同时也可以通过哈希值追溯原始SMILES。使用分子可视化软件查看生成的SDF文件并且从立体化学、合成可行性、相似性和药物样性几个方面评估生成的配体结构。即使生成的配体结构不合理,也可以分析并应用于现有药物。对于合理的配体,本文使用分子对接、QSAR分析和药效团分析方法筛选和优化。这些方法可以评估配体的活性和药物样性。在筛选和优化后,本文对选择的化合物进行实验验证以评估它们对目标蛋白的实际活性。这提供了完整的配体筛选和优化流程有助于发现新型配体。

讨论

通过配体标记化有效地探索化学空间

通过将配体的化学结构转换为标记序列,这一过程类似于将长句子分割成单词。这种标记化策略不仅简化了化合物的表示,而且使能够以与处理文本相同的方式处理化学结构。与逐字解释SMILES表示相比,使用训练过的标记来表示SMILES更有效。在处理来自ZINC20库的超过20亿个分子后,BPE算法收敛,产生仅包含5373个标记的词汇表。在探索化学空间的过程中,可以利用配体的标记序列生成新的化合物,这一过程类似于语言模型在给定上下文下生成新句子的过程。通过控制生成过程中的随机性,既可以保证生成化合物的质量,又可以实现对化学空间的广泛探索。此外,还可以根据蛋白质结构信息调整化合物生成策略。该方法不仅提高了药物发现的效率,而且为药物设计提供了一种新的途径。在未来的研究中,将进一步优化模型,以更好地服务于药物发现任务。

在标记化的镜头下,从蛋白质和配体之间的复杂性差异洞察药物发现

蛋白质的词元数量大于配体词元数量,这表明蛋白质中氨基酸的排列具有更高的复杂性。这种复杂性给蛋白质靶点鉴定和药物设计带来了重大挑战。此外,蛋白质中的平均氨基酸序列长度大于配体中SMILES表示的长度。这可以通过一个语言上的类比来更好地理解这个问题——想象一个词汇量有限的语言试图用词汇量更大的语言来表达概念。在有限的语言中找到合适的单词来表达丰富含义可能具有挑战性。同样,在表示蛋白质和配体时,蛋白质具有更大的词汇量,这意味着需要更多的符号来表示蛋白质的结构和功能。在实际的药物设计中,必须在有限的配体词汇中找到能够有效描述与蛋白质相互作用的化合物。虽然BPE算法确实可以表示蛋白质,但蛋白质序列的高复杂性会导致在标记化过程中出现大量的标记数量。同时,有限数量的配体标记可以有效表示大量的化合物。在未来的研究中,需要找到更有效的解决这些问题的方法,以提高药物开发的准确性和效率。可能需要改进BPE算法以更好地捕获蛋白质和配体之间的特征,或开发新的表示方法以更有效地描述蛋白质-配体相互作用。

自回归生成与对抗生成的优势比较

在图像生成领域,生成对抗网络GAN相较自回归模型GPT可能生成效果不稳定、训练过程不稳定。相比之下,GPT在图像生成任务中表现更好。基于GPT-3的图像生成模型DALL-E能通过文本输入生成对应图像。自回归模型可更有效处理文本生成任务中的挑战。而GAN在此存在一定难度。自回归模型(如GPT)使用SMILES符号生成药物分子,能更高效捕获分子信息。推测基于自回归模型的药物设计相较GAN有更高生成质量、更稳定训练过程和更强泛化能力等优势。基于自回归模型的药物设计方法能帮助研究人员更快发现活性候选分子,提高药物研发效率和准确性。期望自回归模型在未来药物研发将发挥更大作用,为人类健康福祉做贡献。

参考资料

Li, Yuesen, Chengyi Gao, Xin Song, Xiangyu Wang, Yungang Xu, and Suxia Han. "DrugGPT: A GPT-based Strategy for Designing Potential Ligands Targeting Specific Proteins." bioRxiv (2023): 2023-06.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-07-10 12:51,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档