前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Nat. Commun. | 迁移学习助力碳水化合物的区域和立体选择性预测

Nat. Commun. | 迁移学习助力碳水化合物的区域和立体选择性预测

作者头像
DrugAI
修改2021-02-02 10:58:51
5370
修改2021-02-02 10:58:51
举报
文章被收录于专栏:DrugAI

今天给大家介绍的是来自瑞士伯尔尼大学及IBM欧洲研究院联合发表在Nature Communications上的文章。在本文中,作者挑战了用Molecular Transformer模型预测碳水化合物中的区域性和立体选择性反应,实验通过在少量碳水化合物反应的通用模型上进行迁移学习产生特定反应模型解决该问题,最终该模型以惊人的准确性返回预测结果。作者提出迁移学习应适用于任何特定类型。

1

背景

有机合成是一项复杂的解决问题的任务,它利用有机化学领域积累的大量知识,从简单的市售构件开始创造新分子。因其复杂性,有机合成被视作药物研究和发展的主要瓶颈之一。拥有准确的模型来预测反应结果成为提高化学家的生产力的途径之一。在深度学习的算法进步以及大型反应数据集可用的推动下,近年来出现了很多高效的反应预测方法。这些反应预测方法可以分为两类,一类是利用图神经网络的键变化预测方法,另一类是利用Seq2Seq模型生成产物的SMILES字符串。目前,性能最好的预测算法是基于Vaswani等人提出的注意力机制而演变的Molecular Transformer,该模型学习将前体物的SMILES表示翻译成产物的SMILES。对比其他方法,例如基于图神经网络的方法,Molecular Transformer方法的优势在于,其不需要在训练中的产物和反应物原子之间进行映射,且输入可以包含立体化学,且是目前唯一能够处理立体化学的大规模反应预测方法。

由于Molecular Transformer模型的重要性和地位,作者研究了Molecular Transformer模型的适应性,以正确预测区域及立体选择性反应。因为碳水化合物化学对于获取用作工具化合物以研究基本生物学过程(例如蛋白质糖基化)以及制备合成疫苗的复杂聚糖至关重要,并且预测碳水化合物转化的结果,例如对多个羟基的区域选择性保护/去保护或糖基化反应的立体特异性,即使对于有经验的碳水化合物化学家而言,也是一项艰巨的任务,所以基于此,作者利用该模型集中于研究立体化学和高度官能化是关键性反应因子的碳水化合物。

2

方法

作者基于Molecular Transformer模型,研究的任务是反应预测,目的是预测由给定的一组前体物作为输入形成的产物的确切结构式,包括立体化学。首先,用特定的反应子集研究迁移学习使得Molecular Transformer模型适用,是为了在碳水化合物反应中达到更好的性能。对于迁移学习而言,作者使用来自文献中的一组20k的碳水化合物反应数据集,其中包含保护/去保护和糖基化序列。之后作者探索了多任务学习和顺序迁移学习,提出适应性模型,称为Carbohydrate Transformer,在碳水化合物转化上的表现明显优于一般模型和仅在碳水化合物反应上训练的模型。

其次,作者对深度学习反应预测模型进行了详细的实验评估,并在未公开的反应中测试Carbohydrate Transformer模型。作者的评估包括14步的真核生物寡糖转移酶(OST)修饰底物的全合成,还要求模型预测最近公布的铜绿假单胞菌和金黄色葡萄球菌三糖的总合成反应,以进一步评估更复杂的碳水化合物反应。作者使用准确性作为评估指标,仅当使用RDKit规范化后预测的产物与文献中报道的产物完全匹配时,该反应才被视为正确。注意,由于SMILES字符串表示方法的非唯一性,因此采用规范化的SMILES字符串。

3

结果

3.1数据可用性场景

在这项工作中,作者探索了两个真实世界的场景,一个通用化学反应的大数据集和一个复杂且特定反应的小数据集。大数据集是由Lowe导出的美国专利反应的数据集,其中包含1.1M个反应,称为USPTO。对于具体的反应,作者选择了碳水化合物反应,但所描述的方法可以应用于任何感兴趣的反应类。作者从Reaxys数据库中手动提取选自碳水化合物化学领域26位作者的论文的反应。25k个反应的小数据集称为CARBO。作者将USPTO和CARBO数据集分为训练集、验证集和测试集。并使用RDKit对反应数据进行了规范化处理。

图1 Molecular Transformer模型和数据场景

在多任务(multitask)情况下,作者研究了两组反应的不同加权方案。图2a显示了USPTO训练和CARBO训练集在USPTO训练、USPTO测试、CARBO训练和CARBO测试集上不同权重模型的top-1精度的比较。权重描述了每批训练中两组反应的比例。从图中可以看出,在USPTO集上的权重为9并且CARBO集上的权重1(w9w1)时,CARBO测试集的准确率最高(71.2%)。正如预期的那样,只用CARBO训练集进行训练会导致CARBO测试集的准确率很差(30.4%)。因为20k反应不足以让模型学习预测有机化学。仅在USPTO数据上训练的模型达到的准确率达到43.3%。因此,它的表现优于单纯基于CARBO反应训练的模型。在图2b中,作者评估了CARBO训练集大小的影响。随着训练集中的反应次数的增加,准确率从43.3持续增加到71.2%。

图2 多任务方案结果

对于微调(fine-tuning)方案,其中不提供对大型通用数据集的访问,而是可以使用对大型数据集进行预训练的模型,CARBO和USPTO测试集的结果如图3a所示。在CARBO训练集上训练模型后,top-1准确性达到70.3%,类似于在两个数据集上同时训练的模型。当CARBO反应较少时,观察到的行为也是如此。同样对于1k个CARBO反应,微调模型与相应的多任务模型的精度相匹配。

图3 微调方案结果

图3a表示CARBO随机拆分测试集对不同训练策略的性能。绿色部分显示的是在1k或20k碳水化合物反应上进行微调的模型的最高精度。为了进行比较,作者用紫色表示在单一数据集(CARBO、USPTO和USPTO MIT)上训练的模型的最高精确度。蓝色是在多任务场景下训练的模型的性能。图3b表示CARBO时间拆分测试集的性能为不同的微调集大小。

除了不需要显示大数据集中的反应外,另一个优点是微调的训练时间短。与多任务场景中的250k步骤相比,微调只需要5k步骤。但是,如果给定了对两个数据集的时间和访问权限,最好同时对所有数据进行更长时间的训练,因为在大数据集上的性能不会像在微调场景中那样下降。如果只针对特定的反应类别,适应时间短或没有通用数据,则微调预训练模型会更好。

在接下来的部分中,作者将比较仅在USPTO数据上训练的模型,该模型也被用作预训练模型(USPTO模型)和随后在20k CARBO反应上微调的模型(CARBO模型)。

3.2实验评估

尽管已对Transformer的精度进行了广泛评估,但仍缺少实验验证。在此,作者决定在没有训练数据的情况下,根据作者自己实验室在最近实现的合成序列上验证Transformer和CARBO的增强精度。此序列是这个序列是一个14步合成的脂质联结寡糖(LLO),将用作研究OST的底物。

图4 脂质连接低聚糖(LLO)的合成

作者使用通用USPTO模型和微调的CARBO模型来预测序列中14个步骤中的13个步骤(步骤b已删除,因为其出现在训练集中)。USPTO仅做出了四个正确的预测(31%),这些预测要么是标准的保护基操纵(步骤a,g,n),要么是官能团交换(步骤c)。CARBO模型正确预测了这四个简单反应,但此外还做出了另外六个正确的预测,包括区域选择性苯甲酰化(5–6,步骤e)和β-选择性磷酸化(11–12,步骤m),分别对应与上面列出的总体统计数据相符,成功率达到77%,比USPTO模型提高46%。

图5 预测置信度得分分析

每个预测的反应都与一个置信度分数相关联,这个分数是由预测的产物标记的概率乘积计算出来的。有趣的是,置信度得分与预测的正确性相关,如图5所示。对于这两种模型,大多数正确的预测的得分均高于0.8。

4

总结

作者在本文中研究了Molecular Transformer的适应性,利用迁移学习提出了解决碳水化合物的区域性和立体性选择的反应预测模型,称为Carbohydrate Transformer。总的来说,作者观察到Top-1的预测准确率始终保持在70%以上,这大概意味着比原来的Molecular Transformer的基线上提高了30%。作者表明用来学习碳水化合物反应的方法可以应用于其他任何反应类型。因此,像Molecular Transformer这样的模型可以轻松地用于各个化学家感兴趣的反应子空间,这有望对有机合成领域产生重大影响。

数据及源代码

https://github.com/rxn4chemistry/OpenNMT-py/tree/carbohydrate_transformer

参考资料

Pesciullesi, G., Schwaller, P., Laino, T. et al. Transfer learning enables the molecular transformer to predict regio- and stereoselective reactions on carbohydrates. Nat Commun 11, 4874 (2020).

https://doi.org/10.1038/s41467-020-18671-7

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-10-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档