作者 | 罗晓妍 审稿 | 金淑婷
蛋白质是具有重要功能的生物大分子,其功能主要由蛋白质的三级结构决定。蛋白质结构可通过核磁共振、X射线晶体学和低温电镜等实验技术测定,然而这些实验技术有其局限性,无法跟上蛋白质序列测定的增长速度。近几年,利用深度学习技术,蛋白质结构预测取得了重大进展,能够得到较为准确的三级结构。今天为大家介绍的这篇文章,是中科院计算所卜东波老师实验室发布的关于蛋白质结构“从头预测”算法的最新研究成果(原文见https://www.nature.com/articles/s41467-021-22869-8)。以CopulaNet为核心,卜东波老师实验室开发了新版的蛋白质结构预测软件ProFOLD,预测软件源代码见http://protein.ict.ac.cn/ProFOLD,预测服务器见http://protein.ict.ac.cn/FALCON2/,欢迎大家使用ProFOLD预测蛋白质结构。
在蛋白质结构预测这一问题上,近几年来最重要的一个突破是Chris Sander等提出的DCA(Direct coupling analysis)技术:从蛋白质的同源蛋白质出发,计算残基共进化程度,进而预测残基间接触或距离。近期发展出的蛋白质结构预测方法,如AlphaFold和trRosetta,都基于残基间接触/距离的预测,使用了大致相同的“三步曲”:1)预估残基间接触/距离;2)根据估计的接触/距离构造势能函数;3)优化势能函数,以构建势能尽可能小的三级结构;当预测的残基接触或距离足够精确时,这套方案已被证明是可行的。
为预测目标蛋白质残基间接触或距离,首先需要构造多序列联配(Multiple sequence alignment, MSA),以表示目标蛋白质的同源蛋白质;然后依据MSA,对目标蛋白质中的残基进行共进化分析。应用共进化分析技术能够预测残基间接触/距离,其背后的理论依据是:空间邻近的两个残基倾向于共同进化;因此反过来想,原则上可以利用残基共进化来估计残基间接触或距离。常用的共进化分析技术主要有两种:假设目标蛋白质序列服从一个高阶正态分布,进而利用精度矩阵(协方差矩阵的逆)来表征残基间共进化程度,或者假设目标蛋白质序列由一个马尔科夫随机场模型(MRF)产生,进而用两体项表征残基间共进化程度。例如,AlphaFold和RaptorX都依赖于CCMpred预测的残基间接触,而CCMpred就使用了马尔科夫随机场模型。
现有共进化分析技术仍然存在一些不足,比如对于精度矩阵来说,一个明显的缺点是“信息丢失”。如下图所示:两个蛋白质P1和P2,序列不同,结构也不同,比如残基对R1和R3,在P1中有接触,在P2中无接触;然而对这两个蛋白质计算出的协方差阵却是完全相同的,从而导致推断出完全相同的残基接触和距离。换句话说,当把MSA转化成协方差矩阵时,“共进化信息”丢失了。解决这个问题的思路之一是:不用协方差阵等二阶项,而是采用条件联合分布。
图1 基于高阶正态分布以及协方差阵方法的不足实例
基于上述分析,鞠富松等提出了一个端到端的深度神经网络框架CopulaNet,直接从MSA中学习出残基间共进化信息,从而绕过传统统计模型中人为引入的假设和手工构造的特征(注:CopulaNet中的Copula,意为“联合、联结”)。
以CopulaNet为核心,作者进一步开发了完整的蛋白质结构预测算法ProFOLD:将CopulaNet预测得到的残基距离转化为势能函数,并通过最小化势能函数得到蛋白质的三级结构。
图2 ProFOLD预测蛋白质结构
2.1 基准数据集
作者使用与AlphaFold相同的基准数据集——利用35%的序列相似度对CATH进行聚类,从而获得31,247个非冗余的蛋白结构域,并进一步划分为训练集(29,247)和验证集(1,820)。
作者在CASP13中提供的数据上测试,包含104种蛋白结构域,主要分为三类:FM(31个),FM/TBM(12个)和TBM(61个)。
训练集下载于2018年3月16日,早于CASP13比赛;因此,训练集和测试集之间无重复。
2.2 构造MSA
为构建多序列联配,作者使用DeepMSA在蛋白质序列数据库Uniclust30,UniRef90和Metaclust50中进行同源搜索。作者将得到的MSA视为序列对的集合,每个序列对包含目标蛋白序列及一条同源蛋白序列;对齐后,每个位点用41维的one-hot向量表示,40维表示目标蛋白和同源蛋白的20种氨基酸,剩余1维表示gap。
2.3 CopulaNet神经网络架构
CopulaNet由三个模块组成:
(1)编码器:刻画单个残基进化过程中的突变;所考虑的信息包括残基周边的“邻居”、从MSA中抽取出的两序列联配等。
作者将具有K个同源蛋白的MSA表示为K对联配的序列,每一组联配序列都由目标蛋白与其同源蛋白组成。对于每组联配,编码器可以识别目标蛋白的每个残基的突变,并将突变嵌入到64维的向量中。使用的残差网络包含8个残差块,每个残差块如图3,包含两个batch-norm层,两个一维卷积层(卷积核大小为3,数量为64)和ELU。
图3 残差块结构
(2)聚合器:采用外积、平均池化等技术,刻画残基对的协同突变,以衡量两个残基间的共进化。给定一个长度为L的蛋白序列t1t2...tL,和构建好的MSA文件,文件中包含K条同源蛋白。MSA中的第k条同源蛋白经过MSA encoder后,得到特征矩阵Xk∈ RCxL,C代表MSA encoder的输出通道数。对于蛋白中的残基ti,其所有同源蛋白中提取的嵌入特征被聚合,公式如下:
其中wk代表第k条同源蛋白的权重,表示所有同源蛋白的权重和。wk表示与第k条同源蛋白相似度达到80%及以上的同源蛋白数量的倒数。Meff表示MSA中有效的同源蛋白数。对于蛋白中的残基ti和tj,聚合器用聚合后的共进化特征h(i, j)∈RD来量化共进化,D代表输出通道数(D=4224),h(i, j)是指聚合的嵌入特征及其外积(符号)的连接,如下公式及图4所示:
图4 Co-evolution aggregator模块对嵌入特征计算外积进而进行平均池化
(3)距离估计:采用2DResNet,估计残基对之间的距离。根据得到的残基对共进化信息,估计残基对距离。作者设计包含72个残差块的2D-ResNet,残差块的结构与MSA encoder中的一致,不同的是使用了2D 3X3 膨胀卷积(96个卷积核)。与trRosetta模型一样,作者将距离划分为37个区间,(0Å, 2.5Å), (2.5Å, 3.0Å), ..., (19.5Å, 20.0Å), (20.0Å, +∞)。对于每一个残基对,作者预测它们之间的距离属于哪一个区间范围,而不是预测单个距离值。
2.4 构建三级结构
作者用与trRosetta类似的方法构建三级结构。具体来说,首先借鉴DFIRE技术,将预测的残基间距离分布转换为平滑的势函数,然后用PyRosetta中的MinMover来找到势能最小的蛋白质三级结构,产生出只具有残基质心的粗粒度模型;最后,通过FastRelax生成全原子模型。(注:经与卜东波老师通信了解到:鞠富松最近开发了全新的三级结构构建方法FFD,意为Fast folding from residue distances,显著提升了精度,并以动画形式直观展示结构构建过程)。
3.1 用CopulaNet预测残基对距离
ProFOLD利用CopulaNet来预测104个CASP13蛋白结构域的残基间距离。如图5所示,在针对31种FM结构域,12 种FM/TBM结构域和61 种TBM结构域的预测实验上,ProFOLD的接触预测精度都超过了AlphaFold等现有方法。
图5 用CopulaNet预测残基间距离。数据集:CASP13结构域
3.2 用ProFOLD预测蛋白质三级结构
对比ProFOLD和其它方法的结构预测结果,对比的方法有:AlphaFold,trRosetta,top server groups,top human groups reported by the CASP13 organizer。在 CASP13 FM类数据上,ProFOLD依旧表现最佳。
图6 用ProFOLD预测蛋白质三级结构。数据集:CASP13 FM类结构域
图7展示一个ProFOLD预测实例:对于CASP13中的蛋白质域T0950,ProFOLD预测结果(红色)和天然态结构(绿色)之间的TM-score为0.73。
图7 用ProFOLD预测蛋白质三级结构示例。蛋白质:CASP13 FM类结构域T0950。红色:ProFOLD预测结构;绿色:天然态结构。TM-score=0.73
3.3 消融实验
为衡量各模块的贡献,作者去除ProFOLD中的部分模块,比较其与完整ProFOLD的性能,包括:
以蛋白T1022s1-D1的残基距离预测为例,作者展示了ProFOLD及其变体的预测结果,如图8所示。去掉MSA encoder和2D ResNet后,变体ProFOLD w/o E+R的预测效果很差。加上MSA encoder后,变体ProFOLD w/o R能得到与真实距离值相似的结果。完整的ProFOLD则得到非常接近真实值的距离预测。
图8 ProFOLD及其变体对T1022s1-D1的残基距离预测结果
在CASP13提供的数据集上实验结果表明CopulaNet能够准确地预测残基间的距离,ProFOLD可以准确预测蛋白质的三级结构,性能超过AlphaFold。
未来的改进方向包括:因为CopulaNet需要从MSA中获取共进化信息,这就要求MSA包含足够数量的同源序列。如果同源蛋白数不足,CopulaNet对残基距离的预测通常是不够准确的。如何在同源蛋白数量不足的情况下准确预测残基距离是未来的研究方向之一。
此外,经与卜东波老师通信,了解到CopulaNet和ProFOLD于2020年2月开发完毕,文章于2020年10月即上传BioRxiv,并投稿至Nature Communications。在文章审稿期间,DeepMind公司于2021年公布了AlphaFold2的结果。ProFOLD目前虽然优于AlphaFold,但是与AlphaFold2相比尚有差距。卜东波老师团队正在努力改进ProFOLD,争取达到并超过AlphaFold2的水平。
附
蛋白质结构预测服务器
FALCON2 http://protein.ict.ac.cn/FALCON2
论文作者孔鲁鹏和鞠富松开发了蛋白质结构预测服务器FALCON2,集成了“从头预测”算法ProFOLD和“有模板预测方法”ProALIGN(第一作者孔鲁鹏,文章发表于RECOMB2021),为学术界提供蛋白质结构预测服务。
图9 FALCON2蛋白质结构预测服务器
图10 FALCON2蛋白质结构预测服务器预测实例。蛋白质:1ctfA
参考资料
Ju, F., Zhu, J., Shao, B. et al. CopulaNet: Learning residue co-evolution directly from multiple sequence alignment for protein structure prediction. Nat Commun 12, 2535 (2021).
https://doi.org/10.1038/s41467-021-22869-8