[TMLR | 论文简读] GemNet-OC:开发用于大型和多样化的分子模拟数据集的图神经网络
2023-02-18 16:48:04 时间
简读分享 | 滕赛赛 编辑 | 李仲深
论文题目
GemNet-OC: Developing Graph Neural Networks for Large and Diverse Molecular Simulation Datasets
论文摘要
近年来,分子模拟数据集的数量级更大,种类也更多。这些数据集在四个方面有很大的不同:1.化学多样性(不同元素的数量),2.系统规模(每个样本的原子数量),3.数据集规模(数据样本的数量),4.领域转移(训练集和测试集的相似性)。尽管有这些巨大的差异,小数据集上的基准仍然是证明分子模拟图神经网络(GNNs)进展的主要方法,这可能是由于更容易实现的训练计算要求。这就提出了一个问题--GNN在小的数据集上的进展是否能转化为这些更复杂的数据集?这项工作通过首先开发基于大型Open Catalyst 2020(OC20)数据集的GemNet-OC模型来研究这个问题。GemNet-OC在OC20上的表现比以前的最先进水平高出16%,同时将训练时间减少了10倍。然后,作者比较了18个模型组件和超参数选择对多个数据集性能的影响。作者发现,所产生的模型会有很大的不同,这取决于用来做模型选择的数据集。为了隔离这种差异,作者研究了OC20数据集的六个子集,分别测试上述四个数据集的每一个方面。作者发现,OC-2M子集的结果与完整的OC20数据集有很好的相关性,同时训练成本大大降低。该发现对仅在小数据集上开发GNN的常见做法提出了挑战,但强调了通过适度规模、有代表性的数据集(如OC-2M)和模型(如GemNet-OC)实现快速开发和推广的方法。
论文链接
https://openreview.net/forum?id=u8tvSxm4Bs
相关文章
- ASP.NET
- 使用Commons Logging
- 记一次 .NET 某自动化采集软件 崩溃分析
- [C# 中的序列化与反序列化](.NET 源码学习)
- .NET 向量类型的运算结果范例——用于学习Vector类所提供百多个向量方法
- 树莓派(香橙派)通过.NET IoT 操作SPI编写屏幕驱动 顺手做个四足机器人(一)
- WPF自定义控件之消息提示
- .NET跨平台框架选择之一 - Avalonia UI
- 篇(16)-Asp.Net Core入门实战-权限管理之用户创建与关联角色(ViewModel再用与模型验证二)
- 学习ASP.NET Core Blazor编程系列十——路由(下)
- 代码生成器(CodeBuilder) 2.9.4 稳定版
- 篇(15)-入门实战-权限管理之用户创建与关联角色(ViewModel再用与模型验证一)
- 篇(14)-Asp.Net Core入门实战-权限管理之角色编辑和赋权(ViewModel-DTO初探)
- 算法-2 选择排序、冒泡排序、插入排序
- 篇(13)-Asp.Net Core入门实战-将功能代码增加异步功能Async和配置简单防范CSRF攻击
- NET 6 实现滑动验证码(一)、创建工程
- 算法-1 算法复杂度
- 在WPF中使用Prism弹出自定义窗体样式的对话框
- 使用Fody时,CS-SCRIPT动态代码无法找到程序集
- C# 使用SIMD向量类型加速浮点数组求和运算(3):循环展开