如果我们最后拿到的是蛋白编码基因,当然可以很容易的注释到各种数据库,比如:Gene Ontology terms, KEGG, Reactome, NetPath, PID, INOH and BioCarta pathways ,这些数据库本质上都是一些被定义好的基因集而已。
但是lncRNA本身是没有蛋白编码基因那样长远的研究历史,没有海量的生物学实验数据的积累,所以仍然是需要通过跟蛋白编码基因的表达相关性来间接推测lncRNA的功能,这就需要理论模型和算法支持,LncRNA2Function网页工具就是其中一个选择!
作为一个工具,这个不到100的引用量只能说是马马虎虎吧,当然了,本身这个杂志就是专门发生物信息学文章的杂志,影响因子都不到3,而这个工具的100左右的引用,其实是大大帮助了这个杂志。
The lncRNA2Function is freely available at http://mlg.hit.edu.cn/lncrna2function.
实际上,仅仅是凭表达量的相关性就认为某个lncRNA就一定是与它共表达的编码蛋白质的基因的功能一致或者类似,是一个假设而已。
文章里面的描述是
In this study, based on expression correlation between lncRNAs and protein-coding genes across 19 human normal tissues, we used the hypergeometric test to functionally annotate a single lncRNA or a set of lncRNAs with significantly enriched functional terms among the protein-coding genes that are significantly co-expressed with the lncRNA(s).
An external file that holds a picture, illustration, etc. Object name is 1471-2164-16-S3-S2-1.jpg
如果是想探索LncRNA在疾病研究方向的成果,还可以通过FARNA网页工具,依赖的是KEGG Orthology Based Annotation System (KOBAS)数据库,其也是多种数据库的整合,包括, KEGG DISEASE, GAD and NHGRI GWAS Catalog disease databases.