简读分享 | 滕赛赛 编辑 | 李仲深
论文题目
GemNet-OC: Developing Graph Neural Networks for Large and Diverse Molecular Simulation Datasets
论文摘要
近年来,分子模拟数据集的数量级更大,种类也更多。这些数据集在四个方面有很大的不同:1.化学多样性(不同元素的数量),2.系统规模(每个样本的原子数量),3.数据集规模(数据样本的数量),4.领域转移(训练集和测试集的相似性)。尽管有这些巨大的差异,小数据集上的基准仍然是证明分子模拟图神经网络(GNNs)进展的主要方法,这可能是由于更容易实现的训练计算要求。这就提出了一个问题--GNN在小的数据集上的进展是否能转化为这些更复杂的数据集?这项工作通过首先开发基于大型Open Catalyst 2020(OC20)数据集的GemNet-OC模型来研究这个问题。GemNet-OC在OC20上的表现比以前的最先进水平高出16%,同时将训练时间减少了10倍。然后,作者比较了18个模型组件和超参数选择对多个数据集性能的影响。作者发现,所产生的模型会有很大的不同,这取决于用来做模型选择的数据集。为了隔离这种差异,作者研究了OC20数据集的六个子集,分别测试上述四个数据集的每一个方面。作者发现,OC-2M子集的结果与完整的OC20数据集有很好的相关性,同时训练成本大大降低。该发现对仅在小数据集上开发GNN的常见做法提出了挑战,但强调了通过适度规模、有代表性的数据集(如OC-2M)和模型(如GemNet-OC)实现快速开发和推广的方法。
论文链接
https://openreview.net/forum?id=u8tvSxm4Bs