前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >[Bioinformatics | 论文简读] csORF-finder:用于准确识别多物种编码短开放阅读框架的有效集成学习框架

[Bioinformatics | 论文简读] csORF-finder:用于准确识别多物种编码短开放阅读框架的有效集成学习框架

作者头像
智能生信
发布2022-12-29 16:54:24
4050
发布2022-12-29 16:54:24
举报
文章被收录于专栏:智能生信

作者 | 赵晏浠 编辑 | 龙文韬

论文题目

csORF-finder: an effective ensemble learning framework for accurate identification of multi-species coding short open reading frames

论文摘要

短开放阅读框(sORFs)是指长度不超过303 nt的小核片段,可能编码小肽。迄今为止,在信使核糖核酸(RNAs;mRNAs)的非翻译区和长非编码RNAs(lncRNAs)中都发现了可翻译的sORFs,在无数的生物过程中发挥着重要作用。由于并非所有的sORFs都被翻译或基本可被翻译,因此开发一个高度精确的计算工具来描述sORFs的编码潜力是非常重要的,从而促进发现新的功能性肽类。作者通过整合EfficientCapsNet和LightGBM设计了一系列集合模型,统称为csORF-finder,以区分智人、小鼠和黑腹果蝇中的编码sORFs(csORFs)与非编码sORFs。为了提高csORF-finder的性能,作者引入了一种新的特征编码方案,即三核苷酸偏离预期平均值(TDE),并计算了所有类型的基于框内序列的特征,如i-framed-3mer、i-framed-CKSNAP和i-framed-TDE。基准测试结果表明,与原始的3-mer、CKSNAP和TDE特征相比,这些特征可以显著提高性能。性能比较表明,csORF-finder在多物种和非ATG启动的独立测试数据集上取得了比最先进的csORF预测方法更好的性能。此外,作者应用csORF-finder筛选lncRNA数据集,以确定潜在的csORFs。所得数据作为一个重要的计算资源库,用于进一步的实验验证。作者希望csORFfinder可以作为一个强大的平台,用于高通量识别csORFs和对这些csORFs编码的肽进行功能鉴定。

论文链接

https://doi.org/10.1093/bib/bbac392

github链接

https://github.com/mengzhanggggg/csORF-finder_webserver

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-09-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 智能生信 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档