接触预测在蛋白质结构与功能的预测与分析中起着重要的作用。目前接触预测方法的数量在不断增多,如何评价这些方法各自的优缺点也便成了一个问题。Bioinformatics在线牛津大学统计学系联合斯坦福大学生物工程系题为“The evolution of contact prediction: evidence that contact selection in statistical contact prediction is changing”的研究论文,于2020年3月刊登。
该研究选择了四种接触预测的方法:aMIc、CCMpred、metaPSICOV及DNCON2,从预测精度、预测集和背景集的比较、预测结果中接触残基对的分布与类型、保守序列中残基接触的预测等多个方面进行评估,评价这些方法在各个方面的优缺点。
研究发现,aMIc预测的残基对分布区间较低,DNCON2的分布区间较高,CCMpred与metaPSICOV的分布区间主要分布在中部。几种方法从预测集预测的接触残基对中的键合作用要高于背景集,这说明几种方法所预测出的接触残基对可能存在键合作用。对于metaPSICOV和DNCON2来说,二级结构中有更多的预测接触而不是背景接触;而CCMpred预测的接触则更广泛的分布在蛋白质结构中。此外,CCMpred预测的接触中多种键合作用类型的占比也更高,也就是说CCMpred预测的接触更可能具有生物学意义。
总的来说,metaPSICOV和DNCON2更精确,而CCMpred的预测倾向于更多的键。这说明了追求精确度可能会导致物理化学上的重要接触的丢失。这些结果强调了蛋白质物理化学性质与共同进化偶联之间的联系。这种关系可能与蛋白质结构预测和蛋白质结构的功能分析有关,可能是理解它们在结构生物学中不同问题的用途的关键。
图一:四种接触预测方法在不同长度区间内的预测精度
图二:(a)不同接触预测方法的预测集P与背景集BG的比对(b)不同方法预测出的接触残基对构成的各种结构的占比
参考资料
Mark Chonofsky, Saulo H P de Oliveira, Konrad Krawczyk, Charlotte M Deane, The evolution of contact prediction: evidence that contact selection in statistical contact prediction is changing, Bioinformatics, Volume 36, Issue 6, 15 March 2020, Pages 1750–1756, https://doi.org/10.1093/bioinformatics/btz816
校对:陈佩
编辑:刘志