专栏首页FindKeyCVPR 2021 | dMaSIF:基于蛋白质表面信息的高效端到端表征学习

CVPR 2021 | dMaSIF:基于蛋白质表面信息的高效端到端表征学习

今天给大家介绍发表在CVPR2021上的一项工作。在这项工作中,作者提出了一个新的蛋白质结构深度学习框架。该方法将蛋白质原子原始 3D 坐标和化学类型作为输入,利用原子点云和高效几何卷积层实时计算和采样分子表面,以端到端的方式学习蛋白质结构特征。实验证明,在相互作用位点识别和蛋白质-蛋白质相互作用预测两项任务中,该方法以更快的运行时间和更少的参数实现了最先进的性能。

1

介绍

蛋白质是生物体中的核心生物大分子,它们的功能特性可以决定生物体的健康状态,因此能够预测蛋白质的功能特性对于开发新的药物疗法至关重要。蛋白质的生物学功能由其 3D 分子表面的几何和化学结构定义。最近的工作表明,几何深度学习可用于学习基于网格表示的蛋白质分子特征,用于识别潜在的功能位点,例如潜在药物的结合位点。但是,基于网格表示的蛋白质结构有多个缺点,例如需要预先计算输入特征和网格表示形式,这成为蛋白质科学中许多重要任务的瓶颈。

针对以上挑战,作者提出了 dMaSIF,这是一种识别蛋白质表面相互作用模式的深度学习方法。它直接对构成蛋白质的大量原子进行操作,为蛋白质表面生成点云表示,并在该表示上学习特定任务的几何和化学特征,然后应用新的高效几何卷积算子在切空间中近似计算测地坐标。该方法比 MaSIF 快一个数量级,内存效率更高,因而能够在更大的蛋白质结构集合上进行预测。

2

方法

图1 MaSIF 和 dMaSIF预测蛋白质结合位点流程

2.1. 表面生成

快速采样 蛋白质的表面可以用平滑距离函数水平集描述。为了准确表示六种不同的原子类型,作者将原子半径与每个原子相关联并定义平滑距离函数如下:

然后通过最小化随机高斯样本上的平方损失函数,在半径 r = 1.05 °A 处对水平集表面进行采样,损失函数如下:

描述符 点法线 ni 是使用距离函数的梯度计算,为了估计局部坐标系 (ˆni, ˆui, ˆvi),作者首先使用高斯核平滑这个向量场,然后计算切向量 ui 和 vi。令 ˆni = [x, y, z] 为单位向量,s = sign(z),a = −1/(s + z) 且 b = a x y,则

对于每一个点,作者以one-hot形式编码最近的16个原子中心及其类型,然后使用一层MLP计算相应的化学特征向量f,之后再对其进行求和,最后采用采用一层MLP计算得到结果。实验结果表明,单个12维简单 MLP 足以学习丰富的化学特征。

2.2 点云上的准测地线卷积

3D 形状上的卷积 为了更新特征向量 fi 并逐步学习预测蛋白质的结合位点,作者依赖于分子表面上的准测地线卷积(quasi-geodesic convolutions)。这能够确保模型对 3D 旋转和平移完全不变,根据表面的局部化学特征和几何特性做出决定,并且不受位于蛋白质体深处的原子影响。在实践中,几何卷积网络将 f ′i ← MLP(fi) 形式的逐点运算与形式的局部点间交互结合起来:

使用定向点云 在这项工作中,作者利用采样算法产生的法向量来定义一个快速的准测地线卷积层,该层直接在定向点云上工作。作者用单位法线 ˆni 和 ˆnj 近似蛋白质表面的两点 xi 和 xj 之间的测地距离为:

并使用、平滑高斯窗口定位滤波器,在表面的任何点 xi 的邻域中,两个 3D 向量编码相邻点 xj 在局部坐标系 (ˆni, ˆui, ˆvi) 中的相对位置和方向:

局部方向、曲率 一对正交于法线 ni的切向量 (ui, vi) 仅定义为切平面中的旋转。为了以较低的计算成本解决这个问题,作者在切平面上使用高斯滤波器的导数来近似其梯度,实现为准测地线卷积:

然后使用标准三角公式更新切线基 (ˆui, ˆvi)。

可训练的卷积 作者提出架构的主要构建块是准测地线卷积,它依赖于可训练的 MLP 来权衡局部参考点 xi 的测地线邻域中的特征。我们将向量信号 fi ∈ RF 转换为向量信号 f ′i ∈ RF :

3

实验结果

Benchmarks 作者在结合位点识别和蛋白质相互作用预测两个任务上测试方法的性能。这些任务来自结构生物信息学领域,用于预测蛋白质如何相互作用。

Dataset 数据集源于从蛋白质数据库 (PDB)收集的蛋白质复合物。作者基于序列和结构相似性分割测试集和训练集,并最小化训练和测试集中接口结构之间的相似性。对于位点识别,训练集和测试集分别包含 2958 和 356 个蛋白质;保留 10% 的训练集用于验证。对于相互作用预测,训练集和测试集分别包括 4614 和 912 个蛋白质复合物,其中 10% 的训练集用于验证。对于生成的点云,用于表示蛋白质表面的平均点数为 N = 11549±1853,而蛋白质随机旋转并居中,以确保依赖原子点坐标的方法不会过度拟合它们的空间位置。

预计算 MaSIF 的一个主要缺点是它依赖于表面网格和输入特征的大量预计算。这些计算需要大量时间并生成必须存储在磁盘上的大文件。作为参考,用于训练 MaSIF 网络的预处理文件的重量超过 1TB。与此形成鲜明对比的是,dMaSIF不依赖于任何此类预计算。表1比较了两个方法的相应运行时间:对于这些几何计算,dMaSIF比 MaSIF 快三个数量级。

表1 每个蛋白质的平均预处理时间比较

可扩展性 dMaSIF表面生成算法随着批量大小的增加而有益地扩展。当以批量大小处理数十种蛋白质时,dMaSIF的每个蛋白质的运行时间和内存要求都显着降低。这是 GPU 内核使用量增加以及固定 PyTorch 和 KeOps 开销影响较小的结果。此外,dMaSIF蛋白质表面生成方法可以轻松地尝试不同的点云分辨率。不同的任务可以从更高或更低的分辨率中受益,并将其调整为超参数可能会对性能产生重大影响。

学习到的化学特征质量 MaSIF 的另一个显着缺点是它依赖于手动设计的几何和化学特征,这些特征必须预先计算并作为神经网络的输入提供。相比之下,dMaSIF不使用任何人为设计的描述符,而是直接从底层原子点云中学习特定于问题的特征,作为唯一输入。实验表明dMaSIF数据驱动的化学特征与 MaSIF 使用的描述符具有相似的质量或者更好。

结合位点识别 图2中总结了结合位点的鉴定结果,其中描绘了 ROC 曲线以及准确性、时间和内存之间的权衡。我们的网络运行速度比 MaSIF 快 10 倍,我们以 0.87 ROC-AUC 优于 MaSIF,最值得注意的是,我们的模型都具有很小的内存占用。

图2 不同模型在准确率与运行时间,内存使用上的比较

相互作用预测 使用类似于 MaSIF-search 的单个卷积层架构,dMaSIF达到了 0.82 与 0.81 的略高性能,如图3(虚线)所示。与dMaSIF的 16 维相比,MaSIF-search 使用 80 维的高维特征向量达到了这种精度水平,轻量级方法dMaSIF运行时间为 17.5±6.7 毫秒,比MaSIF推理时间快 40 倍以上。

图3 在结合位点识别(实线)及结合分子搜索(虚线)任务的比较

4

总结

在这个工作中,作者为蛋白质表面的深度学习引入了一种新的几何结构,能够预测它们的相互作用特性。所提出的方法比以前的方法快一个数量级,内存效率更高,适用于分析蛋白质结构的大规模数据集,这为分析活生物体中的整个蛋白质-蛋白质相互作用网络打开了大门,包括超过 10K 蛋白质,并有可能为各种生物功能执行新蛋白质的真正端到端设计,即为特定靶点设计结合剂。

参考资料

Freyr Sverrisson, Jean Feydy, Bruno E. Correia, Michael M. Bronstein; Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021, pp. 15272-15281

代码链接:

https://github.com/FreyrS/dMaSIF

本文分享自微信公众号 - DrugSci(DrugNote)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2021-09-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Nat. Methods. | 高效数据优化Low-N蛋白质筛选工程

    今天给大家介绍来自哈佛Wyss研究院的Surojit Biswas等人四月份发表在Nature上的文章《Low-N protein engineering wi...

    智能生信
  • Nat. Commun.| CopulaNet:直接从多序列联配中学习残基间距离以“从头预测”蛋白质结构

    蛋白质是具有重要功能的生物大分子,其功能主要由蛋白质的三级结构决定。蛋白质结构可通过核磁共振、X射线晶体学和低温电镜等实验技术测定,然而这些实验技术有其局限性,...

    DrugAI
  • J. Cheminform. | GraphSol:预测接触图助力蛋白质溶解度预测

    今天给大家介绍中山大学杨跃东教授课题组发表在Journal of Cheminformatics上的一篇论文。该论文指出蛋白质的溶解度对于生产新的可溶性蛋白质非...

    智能生信
  • Nat.Commun.| 使用图卷积网络的基于结构的蛋白质功能预测

    今天给大家介绍的是Vladimir Gligorijević等人在nature communication上发表的文章《Structure-based prot...

    智能生信
  • Bioinformatics|具有图和序列的神经网络的端到端学习的化合物与蛋白质相互作用预测

    这次给大家介绍Masashi Tsubaki教授的论文“Compound-protein Interaction Prediction with End-to-...

    智能生信
  • Anal. Chem. | PepFormer:基于Transformer的对比学习框架

    今天给大家介绍的是山东大学魏乐义教授课题组在分析化学领域顶级期刊Analytical Chemistry上发表的文章“PepFormer: End-to-End...

    Houye
  • PLOS. COMPUT. BIOL. | 深度几何表示模拟突变如何影响蛋白质-蛋白质结合亲和力

    本次分享的是PLOS Computational Biology于2021年8月4日刊登的文章《Deep geometric representations f...

    DrugAI
  • Science | 面对alphafold,学术界没有躺平:RoseTTAFold挑战蛋白复合物预测

    2021年7月15日,华盛顿大学蛋白设计研究所David Baker教授课题组及其他合作机构在Science上发表论文"Accurate prediction ...

    DrugAI
  • Bioinformatics | PhosIDN:结合序列和PPI信息改进蛋白质磷酸化位点预测的整合深度神经网络

    今天带来的是中国科学技术大学王明会团队2021年7月发表在Bioinformatics上的文章,题为“PhosIDN: an integrated deep n...

    DrugAI
  • 2020-2021年上市的15家人工智能驱动的生物技术公司

    在2020-2021年期间,我们看到一些人工智能驱动的、专注于发现新的治疗方法的生物技术公司 (AI-driven Biotechs)上市。这反映了人们对人工智...

    智药邦
  • CVPR 2021奖项出炉:最佳论文花落马普所,何恺明获提名,首届黄煦涛纪念奖颁布

    今年,大会一共接收了 7039 篇有效投稿,其中进入 Decision Making 阶段的共有约 5900 篇,最终有 1366 篇被接收为 poster,2...

    计算机视觉
  • BIBM | AttentionDTA -- 使用注意力模型预测药物-药靶结合亲和力

    今天给大家带来的是发表在BIBM上的文章“AttentionDTA: prediction of drug–target binding affinity us...

    智能生信
  • 基于计算学方法的蛋白质相互作用预测综述

    今天给大家介绍来自中科院的胡伦和IBM的胡鹏伟等人在Briefings in Bioinformatics上发表的文章“A survey on computat...

    DrugAI
  • KDD2021 | 用于预测蛋白质-配体结合亲和力的图神经网络

    本文介绍由中国科学技术大学和百度商业智能实验室等机构的研究人员合作发表于KDD 2021的研究成果:作者提出了一个基于图神经网络的模型SIGN(structur...

    DrugAI
  • Nat. Methods | 利用深度学习进行基于生物物理学和数据驱动的分子机制建模

    本文介绍由美国马萨诸塞州波士顿哈佛医学院系统生物学系系统药理学实验室的Mohammed AlQuraishi等人发表于Nature Methods 的研究成果:...

    DrugAI
  • Briefings in Bioinformatics | 基于SMILES的药物分子表征深度模型和数据增强策略研究

    今天给大家介绍国防科技大学吴诚堃副研究员、博士生张小琛、中南大学曹东升教授以及浙江大学侯廷军教授等人联合发表在Briefing in Bioinformatic...

    DrugAI
  • DrugVQA | 用视觉问答技术预测药物蛋白质相互作用

    鉴定新的药物-蛋白质相互作用对于药物发现至关重要,基于机器学习的方法利用药物描述符和一维(1D)蛋白质序列已经开发了许多鉴定方法。这些方法一般都是通过将配体,蛋...

    DrugAI
  • 一文看尽 6篇 CVPR2021 伪装目标检测、旋转目标检测论文

    本文对 CVPR 2021 检测大类中的“伪装目标检测”、“旋转目标检测”领域的论文进行了盘点,将会依次阐述每篇论文的方法思路和亮点。在极市平台回复“CVPR2...

    狼啸风云
  • JCIM | 可解释人工智能助力临床前相关性评估

    今天给大家介绍来自苏黎世联邦理工学院的José Jiménez-Luna、Gisbert Schneider,以及勃林格殷格翰药业有限公司的Miha Skali...

    DrugAI

扫码关注云+社区

领取腾讯云代金券