前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Bioinformatics|LncADeep一种基于深度学习的从头开始识别lncRNA和功能注释工具

Bioinformatics|LncADeep一种基于深度学习的从头开始识别lncRNA和功能注释工具

作者头像
智能生信
发布2021-03-19 14:34:32
8490
发布2021-03-19 14:34:32
举报
文章被收录于专栏:智能生信智能生信

今天给大家介绍北京大学朱怀球教授在Bioinformatics上发表的文章“LncADeep: an ab initio lncRNA identification and functional annotation tool based on deep learning”。识别lncRNAs,推断lncRNAs的功能,以及对IncRNA注释进行全面的构建是十分必要的。本文提出LncADeep是第一个不仅可以识别lncRNAs并且推断lncRNAs功能的工具,在识别lncRNA上,LncADeep集成了序列固有和同源性特征,放入深度置信网络(DBN)对全长和部分的转录本进行判别。结果表明,lncADeep的性能优于最先进的工具,并且可以跨物种IncRNA鉴定。对于功能注释,本文首先利用序列和结构信息,基于深度神经网络(DNNs)的深度学习算法预测了lncRNA的相互作用蛋白质,随后融合了KEGG和Reactome等人路径富集分析并且利用预测的相互作用蛋白进行功能模块检测,从而提供了丰富的途径和功能模块作为功能注释。

一、研究背景

大多数非编码RNA (non-coding RNAs),长非编码RNA (lncRNAs, 长度在200nt以上) 在剂量补偿、基因组内印迹、细胞分化等方面起着重要的生物学作用,并且与癌症等人类疾病有关。虽然已经有相当多的lncRNAs被描述,但目前发现的大多数lncRNA的功能尚不清楚。为了全面描述新发现的转录本,需要解决两个问题:识别lncRNAs和推断它们的功能。但lncRNAs和mRNAs的相似性以及存在一些只有部分的mRNAs给识别带来很多困难。在功能方面,为了发挥生物学功能,lncRNAs可以与DNA、RNA和蛋白质相互作用,而其中的lncRNA–protein相互作用在lncRNAs的功能中起着至关重要的作用。

二、模型与方法

2.1 数据集

在识别lncRNA上,数据来源分别是RefSeq和GENCODE。其中RefSeq中人类mRNA都是全长的,即mRNA包含5‘未翻译区域(UTR)、CDS和3’UTR。而GENCODE中36%的人类mRNA是部分长的,即没有5‘UTR或3’UTR并且CDS也可能是不完整的。最终本文分别从RefSeq Release 75构造都是全长转录本的数据集,从GENCODE Release 24构造既包含全长也包含部分的转录本的数据集。并且利用RefSeq 和 GENCODE 构造了小鼠转录本的数据集,因为小鼠的mRNAs和lncRNAs比起其他物种更为丰富。

对于构造通过预测lncRNA–protein 相互作用,从而得到lncRNA功能描述的数据集。本文从包含很多实验验证过的lncRNA–protein相互作用对的NPInter数据库构造数据集,并且只保留标签为‘Homo sapiens’和‘ncRNA-protein binding’的相互作用对,移除了ncRNA长度短于200nt的相互作用对。此外参考Akbaripour-Elahabad et al.,Muppirala et al.的方法,如对IncRNAs和蛋白质匹配成对,排除所有已知的相互作用对,并随机保留6204个IncRNA-蛋白质对作为非相互作用的方法构造负样本数据集。

2.2 模型

本文模型的介绍分别由2.2.1-2.2.3的特征选取和深度学习架构两部分组成。

2.2.1 全长转录本模型

使用包括open reading frame (ORF) 长度和覆盖范围, ORF的EDP,Mean hexamer score, UTR coverage ,guanine-cytosine (GC) content, Fickett nucleotide feature 和HMMER index这几种特征。

2.2.2 包含全长和部分长转录本模型

本文介绍了最长CDS(LCDS),来描述部分长的mRNAs。考虑到部分长的mRNA,第一种是缺失3’端的部分mRNA,用基于ORF的CDS来表示最长的ORFs(LORFs)。随后使用一种动态规划方法,最大子阵和(MSS),以找到一个拥有hexamer score的基于hexamer的CDS。对于给定的hexamer序列

的总hexamer score

,由如下等式得到

其中

分别代表分别为帧内编码和非编码hexamer 频率。最终从两个CDS中选择更长的作为LCDS。然后,本文计算LCDS长度和覆盖度作为特征,其中覆盖度是LCDS长度与转录长度的比值。

除此之外,还有ORF的EDP,Mean hexamer score, Fickett nucleotide feature 和HMMER index这些特征。其中mean hexamer score 和EDP是在LCDS上计算,而其他与全长转录本计算方式一致。由于部分长可能缺失5’ or 3’端,所以并没有使用全长中使用过的UTR特征。

2.2.3 预测IncRNA-protein相互作用和IncRNA功能的方法

为了表征lncRNA–protein相互作用对,本文使用了序列特征和结构特征。

对于序列特征,每个lncRNA首先根据4-mers的EDP编码成256-维向量,并且利用在识别lncRNA中的Fickett nucleotide feature and LCDS特征 (如 LCDS的EDP, LCDS长度和覆盖率还有mean hexamer score)总共47-维向量。每个蛋白质序列则根据3-mers的EDP用7个字母编码成343-维向量。

每个lncRNA–protein对由646-维序列表示。为了缓解过度拟合,本文使用最小冗余最大相关性(MRMR)准则进行特征选择,以选择那些最具特征的特征。最终获得110个特征。

对于结构特征,对lncRNA和蛋白质都包含了二级结构,hydrogen-bonding 和Van der Waals特征。用RNAfold预测二级结构,参考lncPro论文方法得到其他特征,最终得到80-维向量。最终将序列向量和结构向量结合得到最后的表征。

为了从预测的相互作用蛋白质得到lncRNA的功能。LncADeep整合了KEGG、反应组通路富集分析和对相互作用蛋白的功能模块检测。首先过滤来自Uniprot数据库经过审查的人类蛋白质序列,获得了20121个蛋白质序列。随后从20121个蛋白质中预测lncRNA的相互作用蛋白,并与预测的相互作用蛋白进行功能注释。

对于路径富集分析,LncADeep采用Fisher的精确检验作为显着性检验,Benjamini-Hochberg(BH)方法进行多重检验校正,并保持富集路径的标准P值<0.05。蛋白质通常作为模块发挥作用、解释由lncRNAs相互作用的蛋白质衍生的功能模块可以为功能提供一些有用的信息。本文通过整合HIPPIE数据库提供的蛋白质-蛋白质相互作用信息,使用马尔可夫聚类以检测功能模块。

2.3 IncRNA识别和蛋白质相互作用预测的深度学习框架

深度学习方法擅长于发现高维数据中复杂的隐藏结构,对分类问题特别有帮助。本文实现了一个基于限制玻尔兹曼机器的DBN,以识别 lncRNAs。将RBMs从下到上逐层叠加,生成DBN。利用数据集进行预训练,为神经网络获得一个良好的初始化点,有助于防止过拟合和捕获观测变量的复杂隐藏信息。在初始化后,添加一个输出层,并通过反向传播对整个神经网络进行微调。DBN网络前两层用Gaussian (visible)–Bernoulli (hidden) RBM,其他两层用Binary-Binary RBM。

用DNN构建深度学习结构,用于预测lncRNA–protein 相互作用。用得到的序列结构特征作为输入,进入DNN进行分类。还添加了dropout 层,以防止过度拟合,并使用反向传播来微调网络。

图3.1. LncADeep的流程图。使用LncADeep进行lncRNA识别和功能注释。

三、实验结果

3.1 评测指标

Sn (sensitivity),Sp (specificity),平均测量值Hm(灵敏度和特异性的谐波平均值)。Sn=TP/(TP+FN), Sp=TP/(TP+FP), Hm=(2xSnxSp)/(Sn+Sp) 。TP、TN、FP和FN代表真阳性、真阴性、假阳性和假阴性。Sn测量正确识别的实际阳性的比率,Sp测量所有预测阳性的真实阳性的比率,Hm用来作为算法评估的聚合性能分数是一种综合测量。

3.2 IncRNA识别的表现

通过十折交叉验证来进行评估。如图4.2所示,在全长数据集上,LncADeep的sensitivity 为98.1% , specificity 为97.2%,但Hm为97.7%。与同一测试集上的其他工具相比,LncADeep具有最高的谐波平均数,包括最高的特异性,而高灵敏度仅略低于CPC(但CPC其他两个值都低于LncADeep)。本文的方法在所有lncRNA识别工具中具有最高的准确性,并且优于现有的工具。

图4.1 通过十折交叉验证在人类转录本上lncRNA识别表现的比较。

如图4.2所示,LncADeep的性能始终优于所有其他工具,无论部分长度mRNAs的比例如何变化。

图4.2 lncRNA识别在不同full,partial组成的人类转录本上的性能。

如图4.3所示,在全长转录本上的跨物种识别具有最高的准确率(谐波平均数为96.7%)。此外,包括全长和部分长度的小鼠转录本进行了跨物种鉴定,LncADeep仍然以最高的谐波获得了最佳的性能,在100%部分长度转录本的测试集上,平均91.2%。更多的,也调整了全长和部分长的比例,LncADeep始终优于其他工具。

图4.3 在鼠转录本上跨物种lncRNA识别的性能。

如图4.4所示,通过5倍的交叉验证,LncADeep的平均灵敏度为97.0%,略低于RF模式的RPISeq的最高灵敏度99.1%,且平均特异性为85.4%,略低于IPMiner的最高特异性85.6。。然而,对于谐波均值的总性能,LncADeep平均达到90.8%,明显优于RPISeq with RF mode(66.5%)、IPMiner(87.6%)和所有其他的工具。

图4.4 通过5折交叉验证预测lncRNA–protein相互作用的比较。

由于缺乏lncRNA功能的金标准数据集,很难定量评估推断出功能的性能。本文则通过比较以四个研究良好的IncRNAs的推断功能(通过LncADeep和 IPMiner)与文献报道的功能。本文的实例表明,LncADeep可以给出信息丰富的功能注释,非常符合已知的功能,并明显优于IPMiner。

四、总结

本文开发了一种基于深度学习算法的lncRNA识别和功能注释工具。LncADeep是截止当时第一个能够识别lncRNAs、预测lncRNA-蛋白质相互作用的工具,并且为lncRNAS提供功能注释。本文通过重建转录本作为输入,LncADeep可以识别lncRNA,预测LncRNA-蛋白的相互作用,并提供IncRNAs功能注释(包括丰富的KEGG、反应体通路和功能模块) 。在全长转录本和包括部分长度的转录本上,LncADeep的性能优于最先进的lncRNA识别工具。此外,LncADeep在预测lncRNA–protein相互作用方面也优于最先进的工具。根据预测的lncRNA–protein相互作用,LncADeep为lncRNA提供了丰富的功能注释,符合已知的功能。


代码

https://github.com/cyang235/LncADeep/

参考文献

https://academic.oup.com/bioinformatics/article/34/22/3825/5021677

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-03-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 智能生信 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档