什么是lncRNA
lncRNA 的全称是long noncoding RNA。即又长又表达且还不能编码翻译成蛋白质的一类RNA。
lncRNA 的种类和功能
在哺乳动物和植物中,存在大量的非编码RNA,其中包括small RNA 和 lncRNA。
lncRNA 根据不同的分类依据可以分为不同的类别。根据其与功能基因的相对位置,可以分为天然反义转录本(NAT),基因间区lncRNA和内含子lncRNA。
lncRNA 的研究目前来看已经逐渐从一个极火的状态逐渐有归于平静的趋势。目前已知的功能主要有如下几个:
lncRNA 分析对数据的要求
因为多数lncRNA与mRNA不同,没有polyA的尾巴,所以建库时需要使用去核糖体的艰苦方式,又因为lncRNA需要明确的知道产生方向,所以需要使用链特异性的建库方式。关于链特异性建库分析的相关内容,可以查看我的另一篇文章链特异建库那点事。
注释依据
根据lncRNA 的定义,其注释依据主要是如下三点:
注释流程(有参数据)
基本筛选条件
编码能力分析
关于如何鉴定lncRNA,近5年主要使用的软件都是出自中国研究人员之手。比如北大高歌课题组开发的CPC(CPC2),比如计算所赵屹课题组开发的CNCI,再比如贝勒医学院李蔚课题组开发的CPAT。
CPC2 (Coding Potential Calculator)
基于支持向量机的分类器开发,根据转录本各编码框的4个序列特征评估编码能力。其四个序列特称分别是 Fickett TESTCODE score, open reading frame (ORF) length, ORF integrity and isoelectric point (pI)
http://cpc2.cbi.pku.edu.cn/help.php
CNCI(Coding-Non-Coding Index)
通过相邻核苷酸三联体特征区分编码和非编码转录本,不依赖于已知的注释文件,可以对不完整的转录本和反义转录本对进行预测.
https://github.com/www-bioinfo-org/CNCI
CPAT(Coding Potential Assessment Tool)
构建逻辑回归模型,基于四个特征ORF长度和覆盖度,Fickett TESTCODE score 和hexamer usage bias来判断转录本编码能力
http://rna-cpat.sourceforge.net/
Pfam 蛋白结构域注释
通过和已有的蛋白数据库进行比对,lncRNA应该不存在比对结果。
RNAplonc
RNAplonc 是最近刚刚上线的一种专门针对植物开发的lncRNA 鉴定方法。该工具由来自5种植物的lncRNA和mRNA数据创建和训练而成,使用REPTree算法从超过5,000种特征中选择了16种特征。
http://rnaplonc.cp.utfpr.edu.br/about.php
靶基因预测