前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Nat. Mach. Intell. | 合成模型性能难提升?试试这个数据降噪策略

Nat. Mach. Intell. | 合成模型性能难提升?试试这个数据降噪策略

作者头像
DrugAI
发布2021-04-28 10:55:06
4990
发布2021-04-28 10:55:06
举报
文章被收录于专栏:DrugAIDrugAI

作者 | 董靖鑫 审稿 | 涂心琪

今天给大家介绍的是IBM欧洲研究院,伯尔尼大学以及比萨大学研究人员联合发表在Nature Machine Intelligence上的一篇文章。作者提出一种对化学反应数据集自动降噪的方法,并使用该方法对两个化学反应数据集(Pistachio和一个开源数据集)进行降噪并完成化学反应预测和逆合成设计任务,实验表明,在降噪后的数据集上训练的模型预测性能得到了改善。

1

介绍

在过去的十年里,化学反应数据集的可用性使得各种数据驱动的方法在合成有机化学中得到了广泛的发展和应用。尽管科学家们一直努力地建立从数据集中有效地学习化学反应的模型,但数据集的质量仍是提高模型性能的主要限制。当前从数据集中消除错误项的策略仅依赖于应用领域专家设计的一些特定规则,但该方法并不灵活,可能会因数据与现有模板不匹配而丢失重要的化学知识。另外,人工管理大型数据集成本过高。因此,开发一种能够在无人工辅助的情况下对数据进行自动降噪,并尽可能保留有意义的化学知识的方法是至关重要的。在此,作者利用catastrophic forgetting(灾难性遗忘)的关键思想,提出了一种基于机器学习的数据降噪方法。

图1 化学反应表示及正向反应预测和逆合成任务

2

结果与讨论

2.1 遗忘反应策略

当在新数据上训练神经网络时,模型倾向于忘记先前学习的信息。通常情况下新数据很可能会覆盖过去学习的权重,并降低过去任务的模型性能,这种现象被称为灾难性遗忘。这些被覆盖的数据点可能是一些关键特征的载体,但大多情况下它们仅是语义上错误的数据点。假设整个数据集的基础特征分布是数据所携带知识的正确统计学表示,则可以通过去除一定比例的较常被遗忘的反应来提高其重要性。使用特定域的统计指标有助于确定去除异常值的最大阈值。

2.2正向预测模型降噪

作者将这一策略应用于Schwaller等人提出的正向预测模型molecular transformer。其中使用到的数据集为私有数据集Pistachio和一个公开数据集。整个数据集中约有80%的数据在训练过程中至少被学习过一次,且在这80%的例子中,70%的例子一旦被学习,就不会在不同迭代过程中被模型遗忘。从未学习过的示例可能包括化学上错误的数据和化学上正确的反应,这些反应具有在整个数据集中罕见的特征(即反应模板)。删除大部分此类反应会导致重要信息的丢失,从而导致模型性能下降。虽不可能将每个被遗忘的反应标记为稀有化学反应或错误化学反应,但仍需应用策略以在消除噪声的同时最大程度地保留稀有但重要的信息。为此,作者首先根据记录的遗忘反应数对训练样本集进行分类,并按照从从未学习过的反应到未遗忘反应排序,随后从数据集中删除更多数据,最多达到40%。每个减少的集合用于训练新的正向预测模型。表1显示了新模型与基准模型相比在通用测试集上获得的top-1和top-2结果。

表1 降噪后的正向模型的结果

实验发现,通过删除部分数据,Top-1的准确性只受到微小的影响,最多可删除约25%的数据;对于减少30%和40%数据的数据集,由于失去有意义的化学知识,模型性能开始下降。

2.3逆合成模型降噪

作者将降噪策略应用于Schwaller, P. 等人提出的逆合成模型,结果表明并没有对数据集产生显著降噪效果。事实上,单步逆合成模型仅用于提示潜在的断点,随后使用正向预测模型对断点进行排序。因此,降噪策略只有与正向预测模型结合使用时才有效。随后,相应的降噪数据集被用于训练单步逆合成模型。图2显示了新的逆合成模型与基准模型(在数据集未降噪的情况下训练的)相比各方面的性能。

图 2 降噪后和未降噪的逆合成模型的性能

由图2可知,两次实验的覆盖率都很高,保证了至少有一个有效的断点存在。类多样性没有出现任何退化,说明降噪策略不会影响预测的多样性。另一方面,往返精度提高了近15%。去除噪声反应使得正向和逆向合成模型能够更成功地学习正确和错误化学之间的差异。

3

总结

在这项工作中,作者提出了可以自动去除化学反应数据集噪声的第一个无人工辅助的、基于机器学习的方法。该方法可以替代繁琐的人工管理方法或基于规则的管理方法。作者将此策略应用于两个从USPTO中抽取的数据集,并使用降噪后的数据集来重新训练正向合成、逆合成和分类模型。对测试集的结果进行统计分析后,作者发现模型的所有有意义的性能指标值都有所提高。

参考资料

Toniato, A., Schwaller, P., Cardinale, A. et al. Unassisted noise reduction of chemical reaction datasets. Nat. Mach. Intell. (2021). https://doi.org/10.1038/s42256-021-00319-w

代码链接:

https://github.com/rxn4chemistry/OpenNMT-py/tree/noise_reduction

数据链接:

https://figshare.com/articles/journal_contribution/Source_Data/13674496

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-04-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据集成
数据集成(DataInLong)源于腾讯开源并孵化成功的 ASF 顶级项目 Apache InLong(应龙),依托 InLong 百万亿级别的数据接入和处理能力支持数据采集、汇聚、存储、分拣数据处理全流程,在跨云跨网环境下提供可靠、安全、敏捷的全场景异构数据源集成能力。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档