前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Nat Commun|PLMSearch:蛋白质语言模型支持精确快速的远程同源序列搜索

Nat Commun|PLMSearch:蛋白质语言模型支持精确快速的远程同源序列搜索

作者头像
智药邦
发布2024-04-03 16:47:14
1100
发布2024-04-03 16:47:14
举报
文章被收录于专栏:智药邦智药邦

2024年3月30日,山东大学数学与交叉科学研究中心杨建益教授、复旦大学类脑智能科学与技术研究院朱山风研究员等人在Nature Communications上发表研究PLMSearch:Protein language model powers accurate and fast sequence search for remote homology。

作者提出了仅以序列为输入的同源蛋白质搜索方法PLMSearch(蛋白质语言模型)。PLMSearch使用预先训练好的蛋白质语言模型的深度表征,并使用大量真实结构相似性来训练相似性预测模型。这使得PLMSearch能够捕捉到隐藏在序列背后的远程同源信息。大量实验结果表明,PLMSearch可以像MMseqs2一样在数秒内搜索数百万个查询-目标蛋白质对,同时将灵敏度提高三倍以上,与最先进的结构搜索方法不相上下。特别是,与传统的序列搜索方法不同,PLMSearch可以调用序列不同但结构相似的大多数远端同源对。

背景

同源蛋白质搜索是用于蛋白质功能预测、蛋白质-蛋白质相互作用预测和蛋白质-表型关联预测的生物信息学方法的关键组成部分。目标是,对于每个查询蛋白质,都需要从目标数据集(通常是大规模标准数据集,如Swiss-Prot9)中找到同源蛋白质。同源概率越高的目标蛋白质排名越靠前。根据输入数据的类型,同源蛋白质搜索可分为序列搜索和结构搜索。

由于序列数据成本低、规模大,目前最广泛使用的同源蛋白质搜索方法是基于序列相似性的,如MMseqs2、BLASTp和Diamond。尽管基于序列相似性的同源推断取得了成功,但仅靠序列来检测遥远的进化关系仍然具有挑战性。

方法

PLMSearch包括三个步骤:(1)PfamClan。首先,PfamScan识别查询蛋白质序列的Pfam家族结构域。随后,PfamClan会在目标数据集中搜索与查询蛋白质具有相同Pfam族域的蛋白质。此外,少数查询蛋白缺乏任何Pfam支链结构域,或者其Pfam支链结构域与任何目标蛋白不同。为防止此类查询无结果,将保留此类查询蛋白与目标蛋白之间的所有配对。(2)相似性预测。蛋白质语言模型为查询蛋白质和目标蛋白质生成深度序列嵌入。随后,SS-predictor会预测所有查询-目标蛋白对的相似性。(3)搜索结果。最后,PLMSearch选择经PfamClan预过滤的蛋白质对的相似性,根据相似性对蛋白质对进行排序,并分别输出每个查询蛋白质的搜索结果。

图1 PLMSearch流程概览

PfamClan

PfamClan过滤出共享相同Pfam族域的蛋白质对。值得注意的是,召回率在最初的预过滤中更为重要。PfamClan基于更宽松的标准,即共享相同的Pfam家族结构域,而不是共享相同的Pfam家族结构域(PfamFamily就是这样做的)。这一特点使PfamClan的召回率超过了PfamFamily,并成功召回了PfamFamily错过的高TM分数蛋白质对。

相似性预测

在蛋白质语言模型和SS预测器的基础上,PLMSearch根据PfamClan的预过滤结果进一步进行相似性预测。这是因为基于PfamClan的聚类结果显示出明显的长尾分布。随着数据集规模的增加,大聚类中包含的蛋白质数量也会大大增加,从而进一步导致预过滤蛋白质对的数量迅速增加。对所有过滤后的蛋白质对使用TM-align,所需的计算资源过多。PLMSearch采用SS-predictor来预测相似性,从而提高了速度,并消除了对结构的依赖。

PLMAlign

对于检索到的蛋白质对,PLMAlign将每残基嵌入作为输入,以获得特定的排列和排列得分。随后,PLMAlign利用比对得分进行重新排序,从而进一步改进了排序结果。具体来说,受pLM-BLAST48的启发,PLMAlign通过对查询-目标蛋白对的每残基嵌入进行点乘计算出替换矩阵。然后将替换矩阵用于SW/NW算法,执行局部/全局配准,并通过线性间隙惩罚加速算法。与使用固定替换矩阵的传统SW/NW相比,PLMAlign计算出的替换矩阵使用了由序列上下文生成的蛋白质嵌入,因此包含了深层次的进化信息。与pLM-BLAST相比,通过使用点积和线性间隙惩罚,PLMAlign可以更好地对远程同源对进行配准,同时将算法复杂度降低到O(mn),确保高效率。因此,PLMAlign在远程同源对齐方面表现更好(以"Malisam和Malidup"数据集为基准)。

结果

PLMsearch的灵敏度与结构搜索方法相似

研究人员共测试了4301.4万个查询-目标蛋白对,以确定六种在大规模数据集上搜索效率最高的方法。PLMSearch在大多数指标上都表现出色,尤其是在超家族级和折叠级上,因为这两个级别较浅,蛋白质序列之间的相似性不明显。PLMSearch在族级(从0.318到0.928)、超家族级(从0.050到0.826)和折叠级(从0.002到0.438)的AUROC分别是MMseqs2的3倍、16倍和219倍。PLMSearch+PLMAlign使用PLMAlign对PLMSearch中相似度超过0.3的蛋白质对进行比对。因此,排除相似度低于0.3的配对会导致召回率略有下降。

图2 PLMsearch的灵敏度与结构搜索方法相似

PLMSearch在数秒内搜索数百万个查询-目标配对

研究人员首先比较了不同方法在SCOPe40-test(2,207个蛋白质,4,870,849个查询目标对)上进行全对全搜索测试所需的总搜索时间。如图2a所示,通过使用SS-predictor预测相似性而不是计算所有蛋白质对的结构相似性(TM-score),SS-predictor(10秒)和PLMSearch(4秒)是最快的方法之一,比TM-align(11303秒)快四个数量级以上。

PLMSearch在仅使用CPU的公开网络服务器上也能达到类似的效率。根据Swiss-Prot(568K个蛋白质)和UniRef50(5360万个蛋白质)搜索查询,并使用PLMAlign将查询与前10个目标对齐,分别需要约0.15分钟和1.1分钟。事实上,在对Swiss-Prot(568K个蛋白质)进行搜索时,PLMAlign需要0.12分钟(超过总时间的80%),而PLMSearch只需要约0.03分钟。这是因为PLMSearch提前生成并预载了所有目标蛋白质的嵌入。这一策略避免了蛋白质语言模型重复前向传播大量参数,节省了将嵌入信息从磁盘加载到RAM的时间。

PLMSearch可准确检测远程同源性对

在本研究中,具有相似序列和相似结构的配对被定义为序列同一性>0.3和TM-score>0.5,称为"易同配对";具有不同序列但相似结构的配对被定义为序列同一性<0.3和TM-score>0.5,称为"远端同源配对"。科研团队对召回配对和遗漏配对进行了具体分析并计算了召回/遗漏配对的TM分数和序列同一性,将它们投影到二维散点图上。

图3 PLMSearch能准确地检测到远程同源对

与容易检测的配对相比,处于蛋白质序列同源性"曙光区"的远端同源配对更难检测。在蛋白质语言模型的支持下,SS-predictor和PLMSearch能搜索出大部分远端同源物对(SS-predictor:1022/1105,PLMSearch:1087/1105,是MMseqs2的6倍),而且召回率超过了直接使用结构数据作为输入的Foldseek(Foldseek:934/1105,Foldseek-TM:940/1105)。

消减实验:PfamClan、SS-predictor和PLMAlign使PLMSearch更稳健

为了评估没有PfamClan组件的PLMSearch,科研团队从SCOPe40-test中的2207个查询中筛选出了110个查询,这些查询未能扫描任何Pfam域。PLMSearch的性能与SS-predictor完全相同。使用PLMAlign根据配准得分进行配准和排序可显著提高精确度。与SS-predictor不同的是,PLMAlign采用的是每个残基嵌入而不是每个蛋白质嵌入作为输入,并使用配对比对而不是大规模相似性预测。此外,值得注意的是,SS-predictor+PLMAlign和PLMSearch+PLMAlign只对齐SS-predictor和PLMSearch预过滤结果中相似度超过0.3的配对(分别为1,591,492对和379,707对),而不是像PLMAlign/pLM-BLAST那样对齐所有配对(4,870,849对)。这种精简的方法大大缩短了配对时间(近16倍),同时保持了相当的精度,突出了利用SS-predictor和PLMSearch进行预过滤的优势。

讨论

科研团队在这项工作中研究了如何利用蛋白质语言模型进行大规模同源蛋白质搜索。其提出的PLMSearch仅以序列为输入,利用蛋白质语言模型和Pfam序列分析搜索同源蛋白质,使PLMSearch能够提取隐藏在序列背后的远端同源信息。随后,使用PLMAlign对PLMSearch检索到的蛋白质对进行配对,并获得配对分数。实验表明,PLMSearch在灵敏度方面优于MMseqs2,与最先进的结构搜索方法不相上下。在远端同源性对中,这种改进尤为明显。另一方面,与其他基线方法相比,PLMSearch是最快的搜索方法之一,能在数秒内搜索数百万个查询-目标蛋白质对。

总之,研究认为PLMSearch解决了序列搜索方法灵敏度低的局限性。由于序列比结构更适用、更容易获得,PLMSearch有望成为一种更便捷的大规模同源蛋白质搜索方法。

PLMSearch免费获取地址:

https://dmiip.sjtu.edu.cn/PLMSearch

参考资料:

Liu, W., Wang, Z., You, R. et al. PLMSearch: Protein language model powers accurate and fast sequence search for remote homology. Nat Commun 15, 2775 (2024). https://doi.org/10.1038/s41467-024-46808-5

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-04-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 智药邦 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档