作者 | 庞超 编辑 | 赵晏浠
论文题目
SMICLR: Contrastive Learning on Multiple Molecular Representations for Semisupervised and Unsupervised Representation Learning
摘要
机器学习作为化学空间探索的工具,拓宽了人们研究已知和未知分子的视野。其核心是分子表征,这是提高构效关系学习的关键。最近,对比学习框架在不同领域的表征学习方面显示出了令人印象深刻的结果。因此,本文提出了一个包含多模态分子数据的对比框架。作者的方法联合训练一个图编码器和一个普通编码器对SMILES字符串执行对比学习。当在SMICLR的预训练编码器上叠加一个非线性回归器并对整个模型进行微调时,作者将QM9数据集上的能量和电子相关性质的预测误差平均分别降低了44%和25%。当在每个分子输入表示中应用数据增强时,可以进一步改进框架的性能。此外,SMICLR在无监督的环境下取得了有竞争力的表示学习结果。
论文链接
https://pubs.acs.org/doi/abs/10.1021/acs.jcim.2c00521
https://github.com/CIDAG/SMICLR