前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >arXiv | 操作符自编码器:学习编码分子图上的物理操作

arXiv | 操作符自编码器:学习编码分子图上的物理操作

作者头像
DrugAI
发布2021-07-05 10:21:15
5010
发布2021-07-05 10:21:15
举报
文章被收录于专栏:DrugAI

编译 | 王天舒 审稿 | 王晓枫 指导 | 闵小平(厦门大学)

今天给大家介绍的是发表在arXiv上一项有关分子动力学内容的工作,文章标题为Operator Autoencoders: Learning Physical Operations on Encoded Molecular Graphs,作者分别是来自波特兰州立大学的Willis Hoke, 华盛顿大学的Daniel Shea以及美国兰利研究中心的Stephen Casey. 在这项工作中,作者开发了一个用于建立分子动力学模拟的时间序列体积数据图结构表示的流程。随后,作者训练了一个自编码器,以找到一个潜在空间的非线性映射。在该空间中,通过应用与自编码器串联训练的线性算子,可以预测未来的时间步长。同时,作者指出增加自编码器输出的维数可以提高物理时间步算子的精度。

1

介绍

先前为分子结构开发生成模型的工作已经证明了图表示对于体积数据的有效性。随着深度学习技术的发展,近年来在图相关领域也取得了一定的成果。图自动编码器是经过训练的神经网络,用于将一组图邻接矩阵的结构特征表示为潜在空间的向量。神经网络为非线性维数变换提供了强有力的工具,在输入数据不在线性流形上的情况下,自编码器可以学习到高维或低维空间的映射,从而捕获数据的固有结构。然而,对于具有大量节点的图,自编码的邻接矩阵可以变得在计算上易于处理。为了克服大分子图的这一局限性,作者团队在每个原子周围的领域中找到了局部图的表示,从而产生了三维空间的一组重叠子图。其中,每个子图都被编码成一个对应的潜在向量表示。

图解码是编码函数的逆函数,其中潜在向量被重构为邻接矩阵。这些邻接矩阵产生重叠的子图,为了重建整个体积,必须经过图匹配过程。图匹配的研究从深度学习和组合优化的角度考虑了这个问题。为了帮助重建全体积分子图,作者团队引入了一个规范图表示,它消除了计算上需要的图匹配方法的需要,否则需要确定重叠图的相似性。除了自编码之外,本工作还使用了深度神经网络来发现动态系统的有利坐标变换。这种变换函数可以建模为作用于系统可观测状态空间的线性Koopman算子。作者用线性算子并行训练了一个自编码器,并演示了如何使用高维潜在表示来帮助发现局部系统动力学的线性模型。本工作的模型是在LAMMPS分子动力学模拟环境下,基于金刚石晶体结构受拉伸变形的时间序列数据进行训练。

2

方法

a.分子子体积采样

为了学习全局系统动力学的近似值,作者使用大分子结构中原子的局部邻域,这具有双重优势,既可以缩短编码大型图所需的计算时间,又可以在局部系统动力学用线性算子比全局动力学更好近似的情况下,改进模型的结果。具体来说,作者通过对初始数据集的子集进行采样,保证图表示可以投影回三维坐标空间,从而重建原始体。如图1所示,作者对初始体积中的每个点应用k邻近算法生成n个子体积,每个子体积有k个点。截断初始体积数据以排除距离边界框一定百分比p内的原子,发现p=5是消除边界伪影的足够值。这可以防止连续时间步之间原子位置的突然变化。

图1. 使用k近邻算法找到的子体积示例(红色)

b. 距离矩阵与键序势

使用标准欧几里德矩阵计算每个子体积中原子之间的成对距离,利用经典的多维标度(MDS)和Procrustes重建方法,在随机数据上实现了距离矩阵的重建。接下来根据成对距离矩阵计算键序势。由于三体势能需要大量的参数,其中一些参数未知或未经验证,因此选择了一个两体势能。Lennard-Jones势计算公式(1)如下,其中和分别是根据原子类型和分子结构型选择的参数。在这里,作者选择使用和的基于类似碳结构的实验参数。

(1)

c. 规范图表示

过去的图自编码器的示例往往依赖于最大池匹配 (MPM) 等近似策略来评估图相似性。由于评估在计算上是昂贵的并且发生在损失函数中,因此对于较大的分子尺寸进行训练变得难以处理。在这项工作中,作者采用是对所有图进行预处理,使邻接矩阵的索引的任何排列都映射到相同的表示。如公式(2)所示,通过根据距离矩阵的指数大小对其进行排序来定义图到其规范表示的排序映射。

(2)

向量p唯一地确定应用于距离矩阵的行和列的排列。规范序不仅将同一图的不同表示映射到同一表示,而且对相似图也产生相似的顺序。通过生成相同距离矩阵的随机排列,添加少量高斯噪声,然后计算正则表示来检验这一假设。如图2所示,规范表示对排列不变性,对成对距离的小扰动具有弹性,大多数行和列保持相同的规范顺序。

图2. 相似距离矩阵(上)与相应的规范表示(下)

d.数据集

作者使用的数据集是从一个包含1000个碳原子的金刚石结构的模拟中生成的,该结构在总共10个时间步(以1000为间隔采样)中受到拉伸变形。作者选择k=10来生成子卷,每个包含10个原子。使用标准欧氏度量计算成对距离,然后使用上述公式计算键序势。然后将数据分成一对向量,包含连续时间步上键序势矩阵的上链项。最后,使用标准的最小-最大缩放算法将数据缩放到范围[0,1]。最终训练的数据集包含了5248对输入向量。不支持单独的测试数据集,因为目标是学习系统动力学的线性表示,而不是泛化到不可见的数据。

3

实验结果

图3. 作为潜在维数函数的Recostruction Loss

图3显示了α-每个模型的比例重建损失。在每种情况下,在延迟50个周期后引入算子损失LOP都会导致重建损失LAE急剧增加。对于低维的潜在表征,重建损失永远不会从这个初始下降中恢复。然而,随着高维表示,在接近稳定状态之前,损耗开始稳步下降。在d=4096的情况下,可以观察到低于引入operator损失函数之前的损失值。

图4. 作为潜在维数函数的Operator Loss

图4显示了operator loss的结果。与重建损失相反,可以观察到在前50个训练周期内,随着自编码器网络权重的更新,operator损失显著增加。当引入operator损失时,损失在稳定前迅速下降。低维的潜在表征显示了损失面的一些变化。这是两个损失函数都影响编码器权重的结果。当编码器以较低的重建误差学习潜在的表示时,它也同时找到具有高度线性度的表示。

4

结论

在这项工作中,作者演示了一系列可逆变换在时间序列体积数据中的应用,以允许自编码器学习有效的潜在表示。在体积图重构过程中,图规范化是一种有效的图相似度量方法。结果表明,高维潜在表征显示出很强的线性,并且自编码器和时间步算子损失度量的值最低。当应用于潜在空间中的向量时,学习的线性时间步算子损失最小。

作者认为,对这项工作的自然扩展可能涉及讨论线性时间步算符重复应用的影响,消除时间步算符上的线性限制,使用其他类型的材料进行测试,以及除了机械变形之外使用其他类型的物理过程进行测试。同时,该模型还可以推广到高维数据。虽然该体系结构是在考虑分子数据的情况下开发的,但对于任意一组时间序列数据,应该能够找到到代表性潜在空间的映射。

参考资料

Hoke W, Shea D, Casey S. Operator Autoencoders: Learning Physical Operations on Encoded Molecular Graphs[J]. arXiv preprint arXiv:2105.12295, 2021.

https://arxiv.org/abs/2105.12295

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-06-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档