编译 | 曾全晨 审稿 | 王建民
今天为大家介绍的是来自Guotong Xie和 Zhiyuan Liu团队的一篇关于分子探索论文。在大型语言模型时代,自然语言被期望成为各种人机交互的关键媒介。在生物化学领域,围绕分子的一系列任务具有重要意义,同时也具有较高的技术门槛。将自然语言中的分子表达与化学语言相结合,不仅可以极大提高这些任务的可解释性和操作难度,还可以整合散落在各种辅助材料中的化学知识,以深入理解分子。基于这些好处,作者提出了对话式分子设计,这是一项采用自然语言描述和编辑目标分子的新任务。为了更好地完成这项任务,作者设计了ChatMol,一个生成式预训练模型,通过注入实验性质信息、分子空间知识以及自然语言与化学语言之间的关联来增强模型。
分子设计是包括生物化学和材料科学在内的各个领域中的一项基础任务,并随着深度学习技术的发展在近年取得了巨大的进展。现有的系统通常直接生成分子或优化给定的分子,采用化学语言的形式,如简化分子输入行记录系统(SMILES)和结构式。一方面,化学语言的表达中间缺乏可读性,需要大量的人工专业知识才能使用。另一方面,当前分子设计系统中的任务形式缺乏交互性,无法很好地整合检索和编辑等操作。因此,尽管借助深度学习方法,分子设计对于研究人员来说仍然是困难且耗时的任务。幸运的是,预训练语言模型(PLM)的出现进一步为这个领域带来了新的可能性,特别是当大型语言模型(LLM)出现并展示了它们提供大量生物化学知识和执行灵活人类指令的强大能力时。
目前,已经开始了关于将NLP方法转移到分子任务中的初步探索,例如用于分子理解的自监督架构。至于在分子设计中使用自然语言,目前已有了几个任务,包括分子描述匹配、分子字幕和根据描述生成分子。然而,这些任务以各种形式存在,而且不够灵活和可扩展,并且没有充分发挥使用自然语言作为分子操作交互媒介的好处。
图 1
作者将现有的任务统一成一种创新形式,提出了会话式分子设计(图1)。在这种设计中,人类操作者可以自由地以化学或自然语言提供分子信息,在多轮对话中要求可读的性质描述或满足给定要求的修改后的分子。为了满足会话式分子设计的训练和评估需求,作者利用手动设计的规则过滤器,基于分子-描述平行数据集创建了对话数据。尽管PLMs可以用于理解复杂的自然语言交互命令,但会话式设计仍然是一项具有挑战性的任务。具体来说,PLMs在独立处理自然语言和化学语言时被证明是有效的,而会话式设计则需要对这两种文本进行灵活而协同的理解。此外,化学材料具有高度专业化的特点,仅凭常识知识无法完全处理分子设计的问题。
为了连接不同的语言,ChatMol模型同时处理自然语言和化学语言,以最小的监督来捕捉两种文本之间的复杂关联。作者首先将SMILES字符串视为普通文本,并分别对SMILES和生化文献材料进行掩码语言建模,以获得对两种语言的基本理解。进一步,作者训练模型读取自然语言文本,识别化学实体,并将其转换为这些实体的化学语言表达式。为了自动构建训练数据,作者采用化学命名实体识别工具来识别文献中的实体,并从现有记录中查询它们的SMILES字符串。为了注入分子知识,作者引入了两种复杂而代表性的知识,以帮助ChatMol处理专业化的分子任务:来自知识库(KBs)的实验性质和工具计算的空间结构。前者包括以自然语言形式记录在分子知识库中的湿实验中的物理和化学性质。后者包括化学键、分子环和芳香性等信息,这有助于SMILES表达式中反映的空间结构信息更加直观。在给定任务前缀后的化学SMILES的情况下,ChatMol模型经过训练,可以生成基于上述信息构建的自然语言答案。
方法
在分子设计的每个回合中,人类用户和智能系统都可以提供用化学语言表示的分子或用自然语言表示的化学性质。给定包含分子和化学性质描述的对话历史,模型关注两个主要功能。(1)分子理解:系统需要为对话历史中的分子生成一段属性描述。(2)分子生成:系统还需要生成一个满足对话历史中要求的特定分子,这些要求可以是文本描述或目标分子需要与之相似的分子。由于可能有多个分子与描述相匹配,人类用户可以迭代地补充属性描述,系统会根据当前的文本描述和上一轮结果生成修改后的分子。
图 2
由于SMILES和自然语言具有不同的特点,两组编码器和解码器分别处理分子和文本描述。每个组都被设置为通用的序列到序列(seq2seq)框架。整体流程如图2所示。带有不同任务前缀的所有数据混合在一起进行多任务预训练,并在微调中应用了分子映射相关的插件。
实验部分
对于分子理解,很少有专注于文本和分子之间相互生成的数据集,例如PCdes和ChEBI-20。作者采用这两个数据集作为微调和评估的数据集。在ChEBI-20中,有26,407个分子-描述对的训练样本,3,301个验证样本和3,300个测试样本。每个描述平均有43.4个单词和3.3个句子。相应地,在PCdes中有10,500个训练样本,1,500个验证样本和3,000个测试样本。描述较长,平均有62.1个单词和4.3个句子。
对于分子生成,作者在提出的ChEBI-dia对话数据集上进行评估。其中有7,361个多轮对话用于训练,1,369个用于验证和1,311个用于测试。总共有7,626个两轮对话,4,536个三轮对话,1,363个四轮对话,283个五轮对话和20个更长的对话。句子的特征与原始的ChEBI-20数据集没有太大差异。
表 1
表 2
主要实验的结果如表1和表2所示。模型在不同的设置和评估指标下都取得了最佳表现。对于分子理解,作者的方法为给定的分子生成了合理的属性描述,并在所有指标上在ChEBI-20和PCdes上实现了全面的改进。如表3所示,LLM基线ChatGPT已经掌握了一部分化学知识,并拥有强大的自然语言生成能力,因此可以以类似风格为给定的三个实例提供属性描述。然而,它也会出现一些错误(例如,碘乙酸不是液体),而且评估得分与调优模型不可比较,这证明了这个任务的挑战性。至于较小的模型,KV-PLM在描述生成方面没有优势,原因可能是其编码器架构限制了模型可以获取的描述范围。以MLM为主的MolT5在PCdes上适应性较差,与原论文提供的ChEBI-20相比,这表明过度预训练可能会损害模型的泛化能力。
表 3
对于分子生成,作者的方法与基准方法相比,生成的结果与真实分子更加相似。LLM基线ChatGPT具备一定的分子知识,并且总能返回有效的分子,但掌握的分子数量有限,因此在一次性生成设置下无法达到很高的准确性。相比之下,KV-PLM采用检索设置,从给定的池中找出最匹配的分子,因此可以获得更高的命中分数,但实际上并不适用于开放场景。对于基于T5的模型,MolT5显示出微小的改进,但并不比ChatMol更好。此外,通过使用插件获取的SMILES作为提示,作者的模型在性能上取得了飞跃,证明了桥接不同语言的重要性以及使用可靠工具进行预训练模型的高效性。
结论
作者提出了对话式分子设计,这是一种采用自然语言描述和编辑目标分子的新型交互范式。作者探索了分子理解和分子生成这两个具体任务,并创建了ChEBI-dia数据集。作者提出了ChatMol,这是一个知识丰富的生成模型,用于桥接化学和自然语言对分子进行描述。通过注入分子知识和桥接不同语言,模型得到进一步增强,并且在训练成本显著降低的情况下证明其更加有效。
参考资料
Zeng, Z., Yin, B., Wang, S., Liu, J., Yang, C., Yao, H., ... & Liu, Z. (2023). Interactive Molecular Discovery with Natural Language. arXiv preprint arXiv:2306.11976.