前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >基于机器学习的蛋白质亚细胞定位预测

基于机器学习的蛋白质亚细胞定位预测

作者头像
阿凡亮
发布2020-04-14 15:14:28
7350
发布2020-04-14 15:14:28
举报
文章被收录于专栏:生物信息学生物信息学

蛋白质是生命活动的主要承担者,也是组成人体一切细胞、组织的重要成分。研究表明,所有蛋白质有对应的亚细胞器,不同功能的蛋白质只有存在于特定的亚细胞器,才能正常发挥其作用。因而寻找一种简单高效的方法对蛋白质亚细胞器进行定位,即获取其特定的亚细胞区间,对了解蛋白质的功能和性质,研究蛋白质之间的相互作用具有重要意义。随着高通量测序时代的来临,大部分生物数据需要通过理化实验对其结构及功能进行注释,传统标注方法如细胞分馏、电子显微镜和荧光显微镜等,成本较高,且耗时费力,借助先进高效的计算机技术,基于统计预测或理论计算的方法从海量数据中挖掘出有效信息已成为了当今时代的迫切需要。

氨基酸组成(AAC)

氨基酸组成是蛋白质亚细胞定位预测领域中最常用的统计学方法。分别统计序列P中每一种氨基酸在整条蛋白质序列中出现的次数,除以这条蛋白质序列的长度,即可得到每种氨基酸出现的频率,作为这条蛋白质序列的数值化特征,即为AAC特征。通常任意一条蛋白质序列P可表示为:

其中 L 表示蛋白质序列的长度或其构成氨基酸残基的数目,?1是第 1 个残基,?2是第 2 个残基,?3是第 3 个残基,以此类推。其AAC特征的计算公式如式:

其中,fi为第i种氨基酸在P中出现的频率。L为蛋白质序列长度,ni表示第i类氨基酸。AAC特征提取过程简单,理解容易,所以使用较为广泛。

支持向量机(SVM)

得到每条蛋白质序列特征所组成的数值向量后,我们采用有监督学习支持向量机(SVM)进行建模。SVM通常用对处理小批量数据进行分类。蛋白质序列经特征提取后被表示成一个m*n的矩阵,如公式所示:

其中m为蛋白质序列的条数,n为蛋白质特征向量维度。蛋白质特征提取完成后,划分训练集和测试集,构造SVM多类分类器进行模型测试。测试流程如图所示:

利用已有的数据库建立好模型后,我们需要评估模型。使用 Jackknife 进行假设检验。Jackknife 是蛋白质亚细胞定位预测中使用最多的测试方法,类似于交叉验证中留一法,每次只留下样本集中一条样本作为测试集完成分类,取其它所有样本作为训练集训练模型,以此类推直至所有序列均预测完毕,是一种客观有效的假设检验方法。最后统计总的预测准确率 OA 作为最终的模型评价指标。

其中,FNi是第i类亚细胞区间预测错误的序列条数,TPi是第i类亚细胞区间预测正确的序列条数,M为亚细胞类别总数。

当模型最终的准确率达到一定精度时,就可以利用已有的模型对其新得到的蛋白质序列数据直接预测。

从蛋白质一级结构的氨基酸序列出发,使用数学模型和统计学习等方法,提取序列征信息,训练分类器对亚细胞区间进行定位预测,并结合传统实验方法,能使得到的结果更加准确,对了解未知蛋白质、设计靶向药物等方面具有重要作用。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-12-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生物信息学 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档