前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >[TMLR | 论文简读] GemNet-OC:开发用于大型和多样化的分子模拟数据集的图神经网络

[TMLR | 论文简读] GemNet-OC:开发用于大型和多样化的分子模拟数据集的图神经网络

作者头像
智能生信
发布2022-12-29 16:58:37
7230
发布2022-12-29 16:58:37
举报
文章被收录于专栏:智能生信

简读分享 | 滕赛赛 编辑 | 李仲深

论文题目

GemNet-OC: Developing Graph Neural Networks for Large and Diverse Molecular Simulation Datasets

论文摘要

近年来,分子模拟数据集的数量级更大,种类也更多。这些数据集在四个方面有很大的不同:1.化学多样性(不同元素的数量),2.系统规模(每个样本的原子数量),3.数据集规模(数据样本的数量),4.领域转移(训练集和测试集的相似性)。尽管有这些巨大的差异,小数据集上的基准仍然是证明分子模拟图神经网络(GNNs)进展的主要方法,这可能是由于更容易实现的训练计算要求。这就提出了一个问题--GNN在小的数据集上的进展是否能转化为这些更复杂的数据集?这项工作通过首先开发基于大型Open Catalyst 2020(OC20)数据集的GemNet-OC模型来研究这个问题。GemNet-OC在OC20上的表现比以前的最先进水平高出16%,同时将训练时间减少了10倍。然后,作者比较了18个模型组件和超参数选择对多个数据集性能的影响。作者发现,所产生的模型会有很大的不同,这取决于用来做模型选择的数据集。为了隔离这种差异,作者研究了OC20数据集的六个子集,分别测试上述四个数据集的每一个方面。作者发现,OC-2M子集的结果与完整的OC20数据集有很好的相关性,同时训练成本大大降低。该发现对仅在小数据集上开发GNN的常见做法提出了挑战,但强调了通过适度规模、有代表性的数据集(如OC-2M)和模型(如GemNet-OC)实现快速开发和推广的方法。

论文链接

https://openreview.net/forum?id=u8tvSxm4Bs

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-10-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 智能生信 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档