前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >CNCI:转录本蛋白编码潜能预测工具

CNCI:转录本蛋白编码潜能预测工具

作者头像
生信修炼手册
发布2019-12-19 14:53:26
2.1K0
发布2019-12-19 14:53:26
举报
文章被收录于专栏:生信修炼手册生信修炼手册

欢迎关注”生信修炼手册”!

CPC是一款使用率非常高的lncRNA预测软件,但是它也存在一些问题。利用二代测序得到的转录组数据,我们组装得到的转录本往往是不完整的,基于非全长的转录本去预测lncRNA,如果这个lncRNA和蛋白编码基因存在overlap,那么很容易造成误判;其次对于没有物种注释的物种,其效果也很差。

为了克服上述问题,研究人员开发出了一款新的工具CNCI, 和CPC不同,该软件基于三联体碱基的构成来区分coding和noncoding转录本,论文发表在Nucleic Acids Research上,网址如下

https://academic.oup.com/nar/article/41/17/e166/2411728

三联体碱基指的就是三个连续的碱基,和密码子类似,称之为ANT, 该软件利用人和小鼠的转录本数据,构建了一个支持向量机的模型,用于对脊椎动物进行分类,示意如下

对于不同长度的转录本序列,和其他软件的性能比较如下

可以看到CNCI在各个长度区间性能都比较好。该软件的源代码保存在github上,网址如下

https://github.com/www-bioinfo-org/CNCI

安装方式如下

代码语言:javascript
复制
git clone git@github.com:www-bioinfo-org/CNCI.git
cd CNCI
unzip libsvm-3.0.zip
cd libsvm-3.0
make

CNCI的执行脚本是采用python开发的,直接用就可以的,但是该软件依赖libsvm, 所以需要安装这个库文件。基本用法如下

代码语言:javascript
复制
python CNCI.py \
-f transcript.fasta \
-o test \
-m ve \
-p 8 \

-f指定转录本序列文件,可以是fasta格式,也可以是gtf格式,如果是gtf格式,需要同时指定-g-d参数;-p参数指定并行的CPU个数;-m指定使用的模型,ve代表脊椎动 物,p代表植物;-o指定输出结果的目录。

在结果目录下,有一个名为CNCI.index的文件,内容示意如下

第二列表明转录本的分类结果。更多用法和详细信息请参考官方文档。

·end·

—如果喜欢,快分享给你的朋友们吧—

扫描关注微信号,更多精彩内容等着你!

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-01-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信修炼手册 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档