作者 | 汪逢生 编辑 | 臧晨宇 校对 | 李仲深
今天给大家介绍的是密苏里大学许东课题组,电子科技大学林昊教授课题组、以及南方医科大学王栋教授课题组联合发表在“NUCLEIC ACIDS RESEARCH”上的一篇文章” DM3Loc: multi-label mRNA subcellular localization prediction and analysis based on multi-head self-attention mechanism”。信使RNA的亚细胞定位能够对转录过程进行准确和有效的控制,这对了解mRNA的功能十分重要,然而相关的方式较少并且性能有待提高。作者在这篇文章中提出了一种多头自注意力的方式DM3Loc用于多标签mRNA亚细胞定位预测。实验表明该模型优于现有其它模型。该模型具有分析RNA结合蛋白基序和mRNA关键信号进行亚细胞定位的解释能力。此外作者分析证明了mRNA同种特异性亚细胞定位的观点和mRNA亚细胞定位的基因本体论的基因富集性研究。
一、研究背景
mRNA的亚细胞定位已被证明是广泛应用于研究动物发育过程中多种细胞类型的一种机制。特别是在高度复杂的细胞中,mRNA的分布并不均匀但应位于特定的细胞区室内。除了降解和扩散耦合外,mRNA定位的主要机制是沿着一个极化细胞骨架网络转录运输。mRNA定位在翻译过程判断细胞区室起到了精准和高效的控制作用,mRNA的异常定位将有助于理解人类疾病的发病机理。近年来,关于mRNA复杂空间分布的原位杂交(ISH)和高通量RNA测序方式虽有优势但代价较大,而依赖计算的RNATracker,iLoc-mRNA等方法却无法结对多标签的mRNA亚细胞定位预测。为此作者提出了使用多头自注意力机制DM3Loc方法。在以往的研究中有考虑使用单头注意力但效果参差不齐,作者认为一个较长的mRNA序列分成多个相对部分能够共同用于定位,这可能被单头注意力所忽视。为了解决这个问题,作者将CNN和多头自注意力相结合。使其多方面同时处理一个序列元素从而描绘全局特征。此外使用多头注意力加上全连接层能够使训练代价不会太高且有效。除了用于预测外,DM3Loc在不同数据上的结果还能够在多种生物学现象上提供解释。
二、模型与方法
2.1 数据集
作者从RNALocate、GenBank、FASTA和NCBI中收集mRNA序列数据。从RNALocat数据库集成了一个基准mRNA亚细胞定位数据集。根据数据库mRNA的位置标注,为mRNA分配单标签和多标签。基准数据集总共包含17870个mRNA对应6个亚细胞室:核、胞外、胞浆、核糖体、膜和内质网。
此外,作者通过CD-HIT-EST移除冗余序列得到非冗余数据构建了一个每一折数据都有相似的类别分布的5折交叉验证数据集,以此作为和其它模型比较的基准数据集。
2.2 DML3Loc框架
DM3Loc框架如下图所示,作者先将mRNA输入序列根据核苷酸类别编码为4 × 8000大小的one-hot向量,其中对于长度大于8000的两边各取4000拼接,小于8000的右边补零。然后将其输入到多尺度CNN卷积核中,通过的每个瓷都包含两层卷积核一个最大池化操作。输出通过多头注意力后进行拼接和全连接得到多标签的预测结果。多头注意力权重经标准化通过复制和移除填补位置注意力值变化到输入序列维度用于分析位置编码便于后续研究。
图1. DML3Loc网络框架
文章中作者对多头自注意力计算注意力权重进行了修改,作者设置能量得分矩阵E如下图公式,H作为卷积层的输出,为了防止模型过拟合得到稀疏的能量得分,作者在优化损失函数时对Ws1和Ws2引入了L1正则项,利用Mask操作对位置进行处理,用于mRNA序列较小的长度会在后面补零,通过对应位置加入惩罚项保证注意力尽可能远离这些位置。作者还对softmax函数进行平滑以此得到更多的高分区域。为了使多个注意力尽可能关注mRNA序列的不同部分,作者在损失函数上加入了多头注意力拼接后得到的权重尽量不可逆的损失项。
作者在训练时将每个样本对应的类别记为1,其余为0,运用交叉熵损失函数训练模型。考虑到训练数据不平衡和问题,作者对每个类别设置了一个比率权重。
三、实验结果
3.1 DML3Loc和其他模型的比较
作者使用5折交叉验证标准数据集将DM3Loc和RNATracker、mRNALoc以及iLoc-mRNA在ROC、PR和MCC上进行比较,结果如下图所示。可以看到在绝大多数情况下是最优的,作者指出测试数据对mRNALoc和iLoc-mRNA有性能偏向,因为它们都是从相同的来源(RNALocate)提取数据,作者的一些测试数据可以用于训练他们的工具,而未使用在DM3Loc和RNATracker的训练过程中。
图2. 模型的比较结果
3.2 DML3Loc在人类转录组上的应用
作者应用DM3Loc在全人类mRNA相关数据集上进行预测并进行分析得到的结果如下图所示,从图A可以看到作者的预测结果和真实值有个相似的分布。
图B表明,对于ZNF419同类别基因绝大多数预测定位为exosome,但存在着NM_001291745.2定位为ribosome的情况,这证明同种特异性mRNA亚细胞定位的观点。
图3. 应用DML3Loc预测人类mRNA
3.3 映射注意力权重到编码
理论上,注意力权重沿着mRNA序列变化其对应于用于亚细胞定位的每个区域以此推断位置编码。作者用人类β肌动蛋白转录得到的mRNA序列进行实验,得到结果如下图所示,可以看到编码的序列位置和最高的注意力权重接近,作者指出这是在合理的距离范围内。
图4. 注意力权重的可视化
3.4 基因富集分析
为了进一步理解mRNA亚细胞定位的功能作用,对mRNA基因及其编码蛋白进行基因本体论(GO)的功能富集分析其生物过程,分子功能和细胞成分。从下图富集结果来看,亚细胞定位的每一个区室都有相当多的GO项。定位于核糖体的mRNA在功能上是富含前列腺发育和线粒体核糖体的GO项。定位于所有六个部分的mRNA主要与“对未折叠蛋白质的反应”、“内质网应激”和“错误折叠的蛋白质结合”有关。位于其他隔室的mRNA也明显富集一些GO项。
图5. mRNA定位前20个富集项
四、总结
首先作者通过多个数据源创建了一个mRNA亚细胞定位的基准数据集,在其基础上又创建了一个5折交叉验证非冗余数据集。随后作者提出了通过在CNN上应用多头注意力机制的多标签mRNA亚细胞位置的深度学习模型DM3Loc, 通过实验表明,DM3Loc总的来说优于已有模型。DM3Loc能够生成与RNA结合蛋白的现有基序匹配序列基序。在人类转录组的实验中发现了数百个同种特异性mRNA种亚细胞定位预测,从计算的角度支持了同种特异性mRNA亚细胞定位观点的存在。通过基因富集分析发现许多来自不同的亚细胞定位组显著富集的mRNA基因项,扩展了有关mRNA参与亚细胞定位功能的现有知识。此外,作者指出RNALocate数据集限制了DM3Loc的准确率,随着以后数据集的增多DM3Loc的准确率能被提高。
代码
https://github.com/duolinwang/DM3Loc
参考文献
Duolin Wang, Zhaoyue Zhang, Yuexu Jiang, Ziting Mao, Dong Wang, Hao Lin, Dong Xu, DM3Loc: multi-label mRNA subcellular localization prediction and analysis based on multi-head self-attention mechanism, Nucleic Acids Research, 2021;, gkab016, https://doi.org/10.1093/nar/gkab016