今天给大家介绍伦敦大学学院David T. Jones 教授课题组发表在Nature Machine Intelligence 的一篇文章。文章中指出,现存的蛋白质功能预测方法受限于训练样本量的瓶颈,为了解决这个问题,作者提出了一种新的基于生成对抗网络的方法FFPred-GAN。FFPred-GAN能够准确学习蛋白质序列的生物物理特征的高维分布,并生成高质量的合成蛋白质特征样本。实验结果表明,通过对原始训练蛋白质特征样本的扩充,合成蛋白质特征样本成功提高了基因本体论所有三个域的预测准确性。
1
介绍
蛋白质功能预测是生物信息学中一项重要但具有挑战性的任务,挑战来源于输入特征空间固有的高维性以及序列与功能之间的隐秘关系,而数据库中几乎没有蛋白质具有完整或可靠的功能注释这一现象也显示出其重要性。尽管最近计算预测方法得到了快速发展,但是绝大多数蛋白质功能预测的准确性仍然非常低,这不仅是由于蛋白质功能的天然多样性,而且还因为现有功能注释的蛋白质样品数量有限。由于通过实验获得蛋白质功能数据成本花费大,因此非常需要开发可以更好地利用现有有限数据的计算方法。
生成对抗网络(GAN)是一种新型的生成模型,旨在通过准确学习目标数据样本的基础分布来生成高质量的合成样本。GAN的新颖之处在于它们采用了对抗训练范式,其中两个神经网络相互“对抗”以了解样本的分布。一个网络(生成器)尝试生成合成数据,而另一个网络(鉴别器)尝试确定给定样本是真实的还是合成的。每个网络在完成其任务之前会变得越来越好,直到达到平衡为止,此时生成器无法生成更好的样本,而鉴别器无法检测到更多的合成样本。GAN已经在图像处理领域的不同机器学习任务中表现出了突出的性能,如图像到图像的转换、图像分割和图像重建等。
在这项工作中,作者提出了一种基于GAN的数据增强新方法FFPred-GAN,该方法成功地利用GAN来处理基于蛋白质序列的数据分布,从而解决了蛋白质功能预测问题。该方法的新颖之处主要体现在三点上:1. FFPred-GAN成功地学习了基于蛋白质氨基酸序列的生物物理特征的分布,并生成了高质量的合成蛋白质特征样本。2. 高质量的合成蛋白特征样本成功地扩充了原始训练样本,并在预测GO术语的所有三个域时获得了明显更高的准确性。3. FFPred-GAN还显示出良好的计算时间效率,这在处理当前数据库中的大量序列数据时非常有价值。
2
模型
FFPred-GAN框架由三个部分组成,以生成高质量的合成训练蛋白质特征样本。如上图所示,首先,FFPred-GAN采用了广泛使用的FFPred特征提取器,基于原始氨基酸序列得出蛋白质生物物理信息。对于每个输入的蛋白质序列,都将生成258维特征来描述例如二级结构,氨基酸组成等13组蛋白质生物物理信息。然后,FFPred-GAN采用具有梯度罚分的Wasserstein生成对抗网络(WGAN-GP)来学习这些训练蛋白特征的实际高维分布。WGAN-GP的生成器用于在FFPred-GAN的不同训练阶段输出合成的训练蛋白特征样本。最后,FFPred-GAN使用分类器两样本测试(CTST)选择最佳的合成训练蛋白特征样本,用于增强原始训练样本。在下游机器学习分类器训练阶段,预期最佳合成样本可得出更好的分类器,从而提高预测精度。
3
实验
作者通过使用两组具有不同类别标签的蛋白质样品,为每个GO项训练两个FFPred-GAN模型。第一个FFPred-GAN模型通过使用带有该GO术语注释的蛋白质样品进行训练(这些蛋白质表示为阳性样品),另一个FFPred-GAN模型是通过使用未被该GO术语注释的蛋白质样品训练的(这些蛋白质表示为阴性样品)。
FFPred-GAN成功生成高质量的合成蛋白生物物理特征样品:作者采用一近邻分类算法和留一法交叉验证(LOOCV)进行分类器两样本测试,用于评估合成蛋白质特征样本的质量。LOOCV精度值越接近0.500,合成样品的质量越高。下图显示了由单个基于GO术语的FFPred-GAN生成的合成阳性和阴性蛋白质特征样本(分别表示为星形和圆圈)获得的LOOCV精度。通常,由FFPred-GAN生成的合成阳性蛋白特征样本在生物过程(BP),分子功能(MF)和细胞成分(CC)术语中占了近一半,LOOCV准确度为0.500。GO项的BP,MF和CC域的平均LOOCV准确度分别为0.573、0.584和0.590。在FFPred-GAN训练开始时,真实的阳性蛋白质特征样本(绿点)与合成样本(红点)的距离较远,因此LOOCV精度为1.000 ,这表明蛋白质特征样本的真实集与合成集之间存在明显差异。经过1,000次迭代的进一步训练后,FFPred-GAN提供了更好的LOOCV精度0.737。经过FFPred-GAN的进一步训练后,在第10,001次迭代中,LOOCV精度为0.645,这也表明FFPred-GAN的训练质量得到了显着提高。FFPred-GAN的训练质量随着更多的训练迭代而不断提高,LOOCV精度在经过额外10,000次迭代后达到0.515。最终,经过29,601次训练迭代后,FFPred-GAN已成功训练,达到了所需的LOOCV精度0.500。
合成蛋白特征样本提高了果蝇功能注释的预测准确性: 作者评估了使用合成蛋白质特征样本对果蝇蛋白质功能预测任务的预测能力。以八种不同方式将合成和真实蛋白质特征样本整合为增强训练蛋白质特征样本,将使用所有这些不同组合的预测相互比较,并与原始(基准)组合的预测进行比较,即实数正数与实数负数。作者使用了三种著名的分类方法-支持向量机(SVM),k近邻(kNN)和随机森林(RF)用于训练模型,来预测测试蛋白质样品的GO术语注释。总的来说,合成蛋白质特征样本成功地提高了训练蛋白质特征样本原始组合的预测性能,并导致使用SVM分类算法预测GO词的所有三个域的整体最高准确性。为了预测GO项的BP域,通过使用SVM作为分类算法,根据MCC和AUROC值,合成正值+实数正值+实数负值的组合给出的总体最佳平均排名分别为5.88和4.84。但是,实数正数与实数负数与SVM的基准组合仅给出了7.92和5.66的平均排名。下图显示了在196个BP项中的每一个项上,通过这两种类型的组合与SVM分类器获得的MCC和AUROC值的成对比较。如绿色点所示,分别使用106和103 BP项通过使用合成的正样本增强训练数据获得更高的MCC和AUROC值。
对于预测MF GO项,根据使用SVM分类器获得的MCC和AUROC值,合成正+实数正+实数负数的组合也分别获得最佳总平均排名3.82和4.40,带有SVM的训练蛋白样本的平均排名仅为4.60和4.83。下图显示37和34 MF项分别获得更高的MCC和AUROC值。
为了预测CC GO项,根据MCC和AUROC值,合成正值+合成负值+真实正值+真实负值的组合分别给出整体最佳平均排名,分别为4.95和4.70。与SVM一起使用时,与训练蛋白样品的基准组合相比,它可以获得更高的MCC值,而在使用RF作为分类算法时,它可以获得更高的AUROC值。下图显示,当使用SVM和RF分类算法时,分别使用合成正负+合成负负+真实正负+真实负负的组合作为训练样本时,25个CC项获得较高的MCC和AUROC值。
作者使用了一组新的CAFA 3目标进一步评估了FFPred-GAN增强训练样本的性能,这些目标与用于训练的基于GO术语的分类器的蛋白质样本不重叠。总的来说,FFPred-GAN增强训练样本在预测GO词的所有三个域时会导致更高的准确性。作者还与使用循环神经网络的另一种基于蛋白质序列的预测方法ProLanGO进行了比较。实验结果证实,在预测GO项的所有三个域时,FFPred-GAN和FFPred均优于ProLanGO。
FFPred-GAN增强的训练样本比SMOTE增强的训练样本具有更高的预测
准确性 作者还将FFPred-GAN与一种著名的数据增强方法SMOTE进行了比较,.使用SMOTE增强训练样本对SVM分类器进行训练,以预测GO术语的所有三个域。另外,训练了一组RF分类器,以评估在预测细胞成分项时获得的AUROC值。总的来说,FFPred-GAN增强的训练样本比SMOTE增强的训练样本具有更高的预测准确性,在CAFA 3目标上获得的分数也证实了FFPred-GAN增强训练样本在预测GO词的所有三个域方面具有更高的准确性。作者还将SMOTE增强训练样本与原始训练样本进行了比较。,在预测GO项的一小部分时,SMOTE增强训练样本仅获得略高的预测精度。
FFPred-GAN增强训练样本提高了最新蛋白质功能预测方法的预测准确性
作者通过与最新的蛋白质功能预测方法NetGO集成,评估了FFPred-GAN增强训练样本的预测性能。总的来说,实验结果证实了FFPred-GAN所做的预测成功地改善了NetGO的性能,从而在预测GO项的所有三个域方面都具有最先进的准确性。
4
总结
在这项工作中,作者提出了一种基于生成对抗网络的新方法,该方法成功生成了高质量的合成特征样本,通过增加原始训练数据,该方法显着提高了预测GO词的所有三个域的准确性。作者认为基于相同的框架,在很大的范围内可以使用基于GAN的新架构,但是更重要的是,可以将相同的基本方法应用于功能预测中使用的通常难以大量生产或昂贵的其他类型的特征,例如蛋白质组学或基因表达数据,同时使用GAN来增强数据也可以提供一种强大的方法来平衡训练集。
代码
https://github.com/psipred/FFPredGAN.
数据
http://bioinfadmin.cs.ucl.ac.uk/downloads/FFPredGAN.
参考资料
Wan, C., Jones, D.T. Protein function prediction is improved by creating synthetic feature samples with generative adversarial networks. Nat Mach Intell 2, 540–550 (2020).
https://doi.org/10.1038/s42256-020-0222-1