因为最近在做利用卷积神经网络CNN和其他深度学习模型来预测m6A-SNP影响的项目,想分享一下目前不同m6A-SNP预测模型的研究进展。RNA N6-甲基腺苷(m6A)修饰是表观转录组最常见的修饰形式之一,在基因表达调控、细胞命运决定、疾病发生中扮演重要角色。
随着高通量测序与机器学习的发展,大家越来越关注单核苷酸变异(SNP)是否会破坏或新建m6A位点,进而影响mRNA命运,从而为RNA生物学机制和癌症和神经系统性疾病的治疗提供参考。这一系列中,本篇我们将接着前两篇继续系统回顾最后几个具有代表性的m6A-SNP预测模型,并深入解析模型原理/代码实现和最新的深度学习研究成果,展示人工智能如何助力RNA修饰功能研究。
m6A修饰的动态变化受RNA序列和结构双重影响,而SNP的发生可能导致m6A修饰位点的获得(gain)或丧失(loss),从而对RNA稳定性、剪接、翻译等过程产生深远影响。已有研究发现,许多与癌症、自闭症、神经系统性疾病、免疫疾病相关的SNP会通过调控m6A修饰介导致病机制。
传统的实验验证方法如miCLIP、MeRIP-seq成本高、覆盖有限,因此基于序列的计算预测方法成为关键补充。
迄今为止,已经开发了许多计算方法来识别 RNA 序列中的 m6A 修饰位点,包括基于机器学习的方法和基于深度学习的方法。这是已发布的 m6A 修饰预测模型的时间表(https://www.sciencedirect.com/science/article/pii/S1046202325001082)。
m6A 预测现有工具的时间表
虽然传统的机器学习方法和机器学习任务中的集成学习算法推动了 RNA m6A 修饰位点预测的发展,但其固有的局限性,例如依赖手动提取的特征和无法自主学习特征,给研究人员带来了挑战。此外,随着大数据时代的到来,海量生物序列数据的积累推动了深度学习在甲基化位点鉴定中的应用和发展。深度学习的出色之处不仅在于它比传统机器学习分类器更强的预测性能,还因为它能够熟练地识别基因组序列中的基序。
基于深度学习的方法采用多层人工神经网络(例如 CNN、Transformer、BiLSTM)直接从原始 RNA 序列中自动学习分层、高维特征表示(使用独热嵌入或词嵌入),无需手动特征工程,并通过复杂序列模式的端到端建模实现 m6A 修饰的准确预测.此外,已经开发了将不同深度学习模型与不同架构或训练策略相结合的深度集成学习策略,用于 m6A 预测。通过加权平均或元学习等方法整合预测,这些方法增强了稳健性和特征多样性,克服了单一模型的局限性(例如,过拟合或偏向模式学习)
🔗[(https://www.sciencedirect.com/science/article/pii/S1046202324000677)]
Huang 等人提出了Deepm6A-MT,它采用两个输入通道:一个嵌入层和三种不同的输入序列编码方法,然后结合了双向门控循环单元(Bi-GRU)和卷积神经网络(CNN),并通过多通道输入策略有效融合RNA序列的本地与全局信息,实现了在多个物种和组织中的m6A位点精确识别。
在包括人、小鼠和大鼠的多个组织样本上,Deepm6A-MT通过5折交叉验证与独立测试评估其性能,展现出对m6A位点强大的识别能力。实验结果表明,Deepm6A-MT 的 ACC 和 Sn 分别超过 DL-m6 0.0133 和 0.0362,分别达到 0.7919 和 0.8232,同时保持 0.8697 的 AUC 和 0.5852 的 MCC。该模型在准确率(ACC)、灵敏度(Sn)、特异性(Sp)、Matthews相关系数(MCC)和AUC方面均达到先进水平,尤其在跨物种泛化任务中表现优异。
Deepm6A-MT 采用了两个并行通道处理输入序列。第一个通道由嵌入层(embedding layer)、双向门控循环单元层(Bi-GRU layer)、一维卷积层(1D convolutional layer)、最大池化层(max pooling layer)、Dropout 层以及展平层(flatten layer)组成。另一个通道由三种不同的序列表示方式(one-hot 编码、二核苷酸 one-hot 编码和核苷酸化学性质编码,即 NCP)、Bi-GRU 层、一维卷积层、最大池化层、Dropout 层以及展平层组成。两个通道的输出被拼接后,依次通过一个 Dropout 层和两个全连接层(fully-connected layers)。Deepm6A-MT 的最终输出表示将输入分类为 m6A 位点的概率。
模型亮点
多通道编码融合架构
Deepm6A-MT 模型采用两个并行信息提取通道:
第一通道使用Embedding-BiGRU-CNN模块,提取序列全局上下文语义信息;
第二通道结合三种序列表示方式——one-hot、二核苷酸one-hot编码(di-one-hot)与核苷酸化学性质编码(NCP),并同样通过 Bi-GRU 和 CNN 进行特征提取。
这两路通道在特征融合前各自学习本地与全局模式,最终通过拼接、Dropout和全连接层完成分类任务。
高效的序列表示与特征提取机制
与传统方法仅采用单一编码方式不同,Deepm6A-MT 在输入层使用:
One-hot 编码:捕捉核苷酸本位信息;
二核苷酸编码:考虑局部碱基组合;
NCP 编码:结合碱基的理化属性(如氢键类型、化学环结构和基团成分);
嵌入层 Embedding:学习核苷酸的上下文语义向量。
该多维度特征表达为神经网络提供了更丰富的信息基础,提升了模型的预测准确性和泛化能力。
数据集与验证策略
使用与 iRNA-m6A 相同的标准数据集,包含 41nt长度的阳性(含m6A)与阴性(非m6A)序列;
数据集涵盖 11 个组织类型(脑、肝、肾、心、睾丸),来源于人类、小鼠和大鼠;
实施5折交叉验证与独立测试双重评估方法;
使用 ROC-AUC、Sn、Sp、ACC、MCC 等指标综合评估模型表现。
🔗[(https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-022-04756-1)]
Wang 等人开发了EMDLP(Ensemble Multi-scale Deep Learning Predictor),这是一个用于RNA甲基化位点识别的集成多尺度深度学习框架。该模型以自然语言处理(NLP)与深度学习(DL)方法为基础,通过引入多种序列编码方式与特征提取机制,实现对RNA序列中 m1A 和 m6A 甲基化位点的高效识别。在特征表示阶段,EMDLP引入了三种编码方式:One-hot编码、RNA词嵌入(RNA Word Embedding)和基于GloVe改进的RGloVe编码,以从局部结构和全局语义两个层面获取信息。在特征提取阶段,模型使用扩张卷积神经网络(DCNN)和双向长短期记忆网络(BiLSTM)相结合,构建出DCB(Dilated CNN + BiLSTM)模型结构,有效融合空间结构特征与序列上下文信息。最终,EMDLP将三个编码方式下分别训练出的DCB子模型进行集成,通过软投票策略得出预测结果。实验表明,与其他模型相比,EMDLP 框架的性能受到限制,Sp 为 0.6964,MCC 为 0.5458,ACC 为 0.7698,AUC 为 0.8524。
该研究将 DCB 模型与三种编码方法相结合: RNA 词嵌入、 one-hot 编码和 RGloVe ,以创建三个修饰位点预测因子。基于 RGloVe、DCNN 和 BiLSTM 神经网络的计算框架结构来预测甲基化位点。
不同的编码技术从各自角度对RNA序列进行建模。RNA 词嵌入与One-hot 编码侧重于提取局部语义信息,而 RGloVe 则通过全局统计特征学习序列的整体语义。因此,不同的编码方式能够在特征提取过程中形成互补效应,从而提升模型的整体预测能力。在 EMDLP 模型中,基于统一的DCB网络结构,分别利用RNA 词嵌入、One-hot 编码和 RGloVe 三种方式构建了三个独立的预测子模型。最终,通过软投票(soft voting)策略对这三个子模型的预测结果进行融合,构建出综合性能更优的EMDLP预测器。模型结构图清晰地展示了该集成框架的整体架构,其中三个不同的深度学习分类器分别对甲基化序列进行预测,最终通过软投票机制共同决定预测结果。
模型亮点
多编码方式融合,提升序列表达力
EMDLP采用One-hot、RNA 词嵌入和 RGloVe 三种特征表示方式,有效融合局部碱基结构信息与长距离上下文关系,从多角度刻画RNA序列特征,提升了输入信息的丰富性。
多尺度特征提取结构DCB
模型构建中结合扩张卷积(DCNN)与BiLSTM结构,使得模型不仅能够捕捉序列中局部和长距离依赖信息,同时保持较高的训练效率和表达能力。
集成学习策略提高预测稳定性
EMDLP通过将三种特征编码方式下的模型输出进行软投票集成,提升模型在不同数据集和不同修饰类型(如m1A与m6A)下的预测准确性和泛化能力。
从最早的SVM模型到如今的CNN,m6A-SNP预测的发展既是算法进步的缩影,也反映出RNA修饰研究日益精细的趋势。面对海量的变异信息,构建可靠的预测工具、理解变异的功能意义,正成为RNA生物学与疾病研究的重要方向。进一步结合Transformer架构、多模态学习(如结合RNA结构、蛋白结合数据)以及跨物种泛化能力的模型将成为热点。同时预测结果的可解释性、可视化也是推动临床转化的关键一步。