前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >CVPR 2021 | dMaSIF:基于蛋白质表面信息的高效端到端表征学习

CVPR 2021 | dMaSIF:基于蛋白质表面信息的高效端到端表征学习

作者头像
DrugSci
发布2021-09-22 10:59:40
1.7K0
发布2021-09-22 10:59:40
举报
文章被收录于专栏:FindKeyFindKey

今天给大家介绍发表在CVPR2021上的一项工作。在这项工作中,作者提出了一个新的蛋白质结构深度学习框架。该方法将蛋白质原子原始 3D 坐标和化学类型作为输入,利用原子点云和高效几何卷积层实时计算和采样分子表面,以端到端的方式学习蛋白质结构特征。实验证明,在相互作用位点识别和蛋白质-蛋白质相互作用预测两项任务中,该方法以更快的运行时间和更少的参数实现了最先进的性能。

1

介绍

蛋白质是生物体中的核心生物大分子,它们的功能特性可以决定生物体的健康状态,因此能够预测蛋白质的功能特性对于开发新的药物疗法至关重要。蛋白质的生物学功能由其 3D 分子表面的几何和化学结构定义。最近的工作表明,几何深度学习可用于学习基于网格表示的蛋白质分子特征,用于识别潜在的功能位点,例如潜在药物的结合位点。但是,基于网格表示的蛋白质结构有多个缺点,例如需要预先计算输入特征和网格表示形式,这成为蛋白质科学中许多重要任务的瓶颈。

针对以上挑战,作者提出了 dMaSIF,这是一种识别蛋白质表面相互作用模式的深度学习方法。它直接对构成蛋白质的大量原子进行操作,为蛋白质表面生成点云表示,并在该表示上学习特定任务的几何和化学特征,然后应用新的高效几何卷积算子在切空间中近似计算测地坐标。该方法比 MaSIF 快一个数量级,内存效率更高,因而能够在更大的蛋白质结构集合上进行预测。

2

方法

图1 MaSIF 和 dMaSIF预测蛋白质结合位点流程

2.1. 表面生成

快速采样 蛋白质的表面可以用平滑距离函数水平集描述。为了准确表示六种不同的原子类型,作者将原子半径与每个原子相关联并定义平滑距离函数如下:

然后通过最小化随机高斯样本上的平方损失函数,在半径 r = 1.05 °A 处对水平集表面进行采样,损失函数如下:

描述符 点法线 ni 是使用距离函数的梯度计算,为了估计局部坐标系 (ˆni, ˆui, ˆvi),作者首先使用高斯核平滑这个向量场,然后计算切向量 ui 和 vi。令 ˆni = [x, y, z] 为单位向量,s = sign(z),a = −1/(s + z) 且 b = a x y,则

对于每一个点,作者以one-hot形式编码最近的16个原子中心及其类型,然后使用一层MLP计算相应的化学特征向量f,之后再对其进行求和,最后采用采用一层MLP计算得到结果。实验结果表明,单个12维简单 MLP 足以学习丰富的化学特征。

2.2 点云上的准测地线卷积

3D 形状上的卷积 为了更新特征向量 fi 并逐步学习预测蛋白质的结合位点,作者依赖于分子表面上的准测地线卷积(quasi-geodesic convolutions)。这能够确保模型对 3D 旋转和平移完全不变,根据表面的局部化学特征和几何特性做出决定,并且不受位于蛋白质体深处的原子影响。在实践中,几何卷积网络将 f ′i ← MLP(fi) 形式的逐点运算与形式的局部点间交互结合起来:

使用定向点云 在这项工作中,作者利用采样算法产生的法向量来定义一个快速的准测地线卷积层,该层直接在定向点云上工作。作者用单位法线 ˆni 和 ˆnj 近似蛋白质表面的两点 xi 和 xj 之间的测地距离为:

并使用、平滑高斯窗口定位滤波器,在表面的任何点 xi 的邻域中,两个 3D 向量编码相邻点 xj 在局部坐标系 (ˆni, ˆui, ˆvi) 中的相对位置和方向:

局部方向、曲率 一对正交于法线 ni的切向量 (ui, vi) 仅定义为切平面中的旋转。为了以较低的计算成本解决这个问题,作者在切平面上使用高斯滤波器的导数来近似其梯度,实现为准测地线卷积:

然后使用标准三角公式更新切线基 (ˆui, ˆvi)。

可训练的卷积 作者提出架构的主要构建块是准测地线卷积,它依赖于可训练的 MLP 来权衡局部参考点 xi 的测地线邻域中的特征。我们将向量信号 fi ∈ RF 转换为向量信号 f ′i ∈ RF :

3

实验结果

Benchmarks 作者在结合位点识别和蛋白质相互作用预测两个任务上测试方法的性能。这些任务来自结构生物信息学领域,用于预测蛋白质如何相互作用。

Dataset 数据集源于从蛋白质数据库 (PDB)收集的蛋白质复合物。作者基于序列和结构相似性分割测试集和训练集,并最小化训练和测试集中接口结构之间的相似性。对于位点识别,训练集和测试集分别包含 2958 和 356 个蛋白质;保留 10% 的训练集用于验证。对于相互作用预测,训练集和测试集分别包括 4614 和 912 个蛋白质复合物,其中 10% 的训练集用于验证。对于生成的点云,用于表示蛋白质表面的平均点数为 N = 11549±1853,而蛋白质随机旋转并居中,以确保依赖原子点坐标的方法不会过度拟合它们的空间位置。

预计算 MaSIF 的一个主要缺点是它依赖于表面网格和输入特征的大量预计算。这些计算需要大量时间并生成必须存储在磁盘上的大文件。作为参考,用于训练 MaSIF 网络的预处理文件的重量超过 1TB。与此形成鲜明对比的是,dMaSIF不依赖于任何此类预计算。表1比较了两个方法的相应运行时间:对于这些几何计算,dMaSIF比 MaSIF 快三个数量级。

表1 每个蛋白质的平均预处理时间比较

可扩展性 dMaSIF表面生成算法随着批量大小的增加而有益地扩展。当以批量大小处理数十种蛋白质时,dMaSIF的每个蛋白质的运行时间和内存要求都显着降低。这是 GPU 内核使用量增加以及固定 PyTorch 和 KeOps 开销影响较小的结果。此外,dMaSIF蛋白质表面生成方法可以轻松地尝试不同的点云分辨率。不同的任务可以从更高或更低的分辨率中受益,并将其调整为超参数可能会对性能产生重大影响。

学习到的化学特征质量 MaSIF 的另一个显着缺点是它依赖于手动设计的几何和化学特征,这些特征必须预先计算并作为神经网络的输入提供。相比之下,dMaSIF不使用任何人为设计的描述符,而是直接从底层原子点云中学习特定于问题的特征,作为唯一输入。实验表明dMaSIF数据驱动的化学特征与 MaSIF 使用的描述符具有相似的质量或者更好。

结合位点识别 图2中总结了结合位点的鉴定结果,其中描绘了 ROC 曲线以及准确性、时间和内存之间的权衡。我们的网络运行速度比 MaSIF 快 10 倍,我们以 0.87 ROC-AUC 优于 MaSIF,最值得注意的是,我们的模型都具有很小的内存占用。

图2 不同模型在准确率与运行时间,内存使用上的比较

相互作用预测 使用类似于 MaSIF-search 的单个卷积层架构,dMaSIF达到了 0.82 与 0.81 的略高性能,如图3(虚线)所示。与dMaSIF的 16 维相比,MaSIF-search 使用 80 维的高维特征向量达到了这种精度水平,轻量级方法dMaSIF运行时间为 17.5±6.7 毫秒,比MaSIF推理时间快 40 倍以上。

图3 在结合位点识别(实线)及结合分子搜索(虚线)任务的比较

4

总结

在这个工作中,作者为蛋白质表面的深度学习引入了一种新的几何结构,能够预测它们的相互作用特性。所提出的方法比以前的方法快一个数量级,内存效率更高,适用于分析蛋白质结构的大规模数据集,这为分析活生物体中的整个蛋白质-蛋白质相互作用网络打开了大门,包括超过 10K 蛋白质,并有可能为各种生物功能执行新蛋白质的真正端到端设计,即为特定靶点设计结合剂。

参考资料

Freyr Sverrisson, Jean Feydy, Bruno E. Correia, Michael M. Bronstein; Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021, pp. 15272-15281

代码链接:

https://github.com/FreyrS/dMaSIF

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-09-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugSci 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图像处理
图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档