前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Nature Communications | 基于注意力机制对RNA修饰位点多标签分类的预测与解释

Nature Communications | 基于注意力机制对RNA修饰位点多标签分类的预测与解释

作者头像
智能生信
发布2021-08-13 11:16:46
5780
发布2021-08-13 11:16:46
举报
文章被收录于专栏:智能生信

作者 | 金俊儒 编辑 | 龙文韬 校对 | 李仲深

今天给大家介绍西交利物浦大学孟佳教授等人在Nature Communications期刊上发表的文章“Attention-based multi-label neural networks for integratedprediction and interpretation of twelve widely occurring RNA modifications”。RNA修饰增加了RNA分子的结构和功能的多样性,因此,精确识别RNA修饰位点对于理解RNA的功能和调控机制至关重要。为了综合预测和解释转录后的RNA修饰位点,作者提出了基于注意力的多标签深度学习框架的模型MultiRM。MultiRM不仅可以同时预测12个广泛存在的转录组位点,而且对预测过程中的关键序列进行了提取分析,揭示了不同类型的RNA修饰之间有很强的关联,有助于更好的综合分析和理解基于序列的RNA修饰机制。

一、研究背景

首先,现有的对RNA修饰点判别的方法大多只涉及到一个类别,并没有注意到RNA修饰位点之间的联系。其次有些方法数据量不足,考察的位点太少,这导致实验存在一定的缺陷。另外,有一些模型预测的准确度可以,但是可解释性太差,即使有些实验采用了CNN核的可视化,但还是很模糊,带有不确定性。所以,作者针对上述问题提出了对十二种常见的RNA分类预测模型,采用了integrated gradient和attention weight两种方法着重于获得对模型更好的解释。同时,为了解决数据量不平衡的问题,引入了online hard examples mining和uncertain weights来提高准确性。

二、模型与方法

2.1 数据集

所有的数据都是公开并可以在GEO database, RMBase, and RADAR database三个数据库中获取的,并且将有瑕疵的数据都舍弃了,增加了模型的鲁棒性和可靠性。经过以上筛选,最终得到了20个转录组,从15个不同的实验里得到的12种RNA修饰的分类(如表1所示),涵盖了所有能通过基本方法检测出来的RNA修饰以及包含了将近3000个RNA位点。

表1. 转录RNA数据列表

2.2 模型

如图2所示,整个模型由三个部分组成,第一部分将输入转化成embedding,分别采用了三种方法:一维卷积+一维池化,Word2Vec,隐马尔可夫模型。将得到的三种embedding单独各自输入到第二个部分LSTM+Attention层,然后得到的特征组合进入第三个部分分类器中进行多标签分类的任务。为了解决数据不平衡的问题采用了交叉熵+onlinehard examples mining+uncertain weights的优化器,并得到了较好的性能提升效果。另外,通过实验得到的结果对比发现采用51-bp的input长度预测是最准确的。

图2. 模型设计图

三、实验结果

3.1 与基线模型对比

作者首先对MutiRM和XGBoost,CatBoost等基线模型进行了性能比较,如表2所示,MutiRM在AUC上的表现大部分都超过了基线模型。

表2. 与基线模型性能对比

3.2 模型对十二种RNA修饰位的预测表现

对十二种修饰位都有很好的预测结果,如表3所示。

表3. MutiRM模型表现总结

3.3 对模型的解释

在RNA修饰位上存在一些相同的位点,可以看出这些位点在RNA中起着很重要的作用,而且这些位点的模式通过TOMTOM方法与传统预测方法DREAM和STREAM计算出来的位点进行相似度对比,也很接近,如图3所示。

图3. 与传统方法位点模式的相似度比较

作者还通过使用attention mechanism方法提取了十二个RNA修饰位类别对应的十二个向量,研究其中的相似度,并发现其中联系,如和,和很接近。如图4所示,我们还可以看出与其他的修饰器的关联都是温和的,意味着其在转译规则中的有着的特殊作用。

图4. 由MutiRM方法得到的RNA修饰位点之间的关联性

四、总结

在本文中,作者设计并实现了一种可以预测十二种RNA修饰位点的分类器,并且搭建了一个webServer给研究者使用,同时也研究了RNA修饰位点之间的联系,可以进一步促进生物学者的研究。但模型也还有一些缺点,如现在模型只能预测人类的RNA修饰,对于其他物种尚且不可(如老鼠和酵母)等。


代码

https://github.com/Tsedao/MultiRM

webServer:www.xjtlu.edu.cn/biologicalsciences/multirm

参考文献

https://www.nature.com/articles/s41467-021-24313-3

webServer

www.xjtlu.edu.cn/biologicalsciences/multirm

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-07-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 智能生信 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档