lncRNA数据分析传送门

step1: 计算资源的准备

如果有差不多配置的服务器,就可以从SRA/FASTQ格式数据开始走全套流程。不懂配置,请看前面转录组和表观组的传送门。

如果只有个人电脑,那么直接下载表达矩阵开始分析也是可以的。

step2: 读文献,查看GEO数据

文章是 Annotation and cluster analysis of spatiotemporal- and sex-related lncRNA expression in Rhesus macaque brain , 作者测了 4个年龄段的恒河猴:1年(child),4年(Youth),10年(Adult)和20年(Old); 脑组织新皮质、海马和小脑不同区域(8个),两种测序模式(RNA-seq and CAGE-seq),两种性别,总计(4X8X2X2)128个样本。所以作者分析可以mRNA和lncRNA在时间,空间以及性别上面的区别。

里面关于数据和方法写的很清楚:

RNA-seq and CAGE-seq data have been submitted to the NCBI Gene Expression Omnibus (GEO; https://www.ncbi.nlm.nih.gov/geo/) under accession number GSE87182. The modified WGCNA code and co-expression network and data are available in the Supplemental Material can be downloaded from GitHub (https://github.com/DChenABLife/RhesusLncRNA).

而且里面详细的列出了数据处理方法,使用到的软件,参数,以及步骤,希望大家仔细研读清楚。

step3:了解参考基因组及注释文件

这个物种是 Macaca mulatta ,这里我们只分析转录组测序数据, https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE85377

step4: 得到表达矩阵的流程

这一步仅限于有服务器的朋友,没什么好说的了,在转录组,表观组我们都已经详细讲解了。

SRA—>FASTQ—>BAM—>COUNTS 这几个步骤而已,中间穿插一些质控的手段,每个步骤选择好合适的软件即可。可以参考:一个植物转录组项目的实战 http://www.bio-info-trainee.com/2809.html

因为物种比较特殊,所以上游分析的时候需要选择的参考基因组,参考注释文件都会比较麻烦。

幸运的是作者上传了他上游分析后得到的表达矩阵,大家只需要下载即可:

ftp://ftp.ncbi.nlm.nih.gov/geo/series/GSE85nnn/GSE85377/suppl/GSE85377_All_sample_merged_RPKM_ed.xlsx

目前已发现的lncRNA的数量接近mRNA(GENCODE V25, http://www.gencodegenes.org),lncRNA具有scaffolds,molecular sponges等基因调控功能机制,是重要的表观和转录调控因子。尽管lncRNA普遍低保守和低表达,lncRNA却具有明显的tissue和 stage-specific表达特征,因此被认为参与调控不同的生物学功能,尤其是细胞分化和发育。

step5: 差异表达的mRNA和lncRNA

很明显,得到了表达矩阵之后,根据上面的样本信息,可以按照年龄,性别,取样部位来进行分组找差异。

可以参考:https://github.com/jmzeng1314/my-R/tree/master/DEG_scripts

step6: WGCNA分析

因为样本数量比较可观,所以可以进行WGCNA分析。这里是并不需要选取所有的基因来做WGCNA分析,挑选的标准可以是top变异程度大的基因集合,或者显著差异表达的基因集合等等。

这里可以参考:https://github.com/jmzeng1314/my_WGCNA

WGCNA将lncRNA分成18个模块(3635个lncRNA),空间模块中lncRNA表达呈现明显的组织区域特异性,如:CB (M1, 794个lncRNAs),DG/CA1 (M2, 443个lncRNAs), CA1 (M4, 369个lncRNAs),neocortex (M7, 123个lncRNAs)和OC (M10,57个lncRNAs)。

时间模块中lncRNA表达与年龄有关,而与组织区域不明显;性别模块中lncRNA表达与性别和年龄都相关。

每个模块就必须做pathway/go等数据库的注释分析咯!

step7: 皮尔森相关性分析基因对

基于皮尔森相关性分析,对9904个lncRNAs和26654个 mRNAs进行计算,结果发现5084个lncRNAs和18418个mRNAs 形成了3341261个共表达基因对;例如,lncRNA MIAT与237个mRNAs和93个lncRNAs有共表达关系,对MIAT相关的mRNA进行富集分析,显示MIAT涉及neuroactive ligand-receptorinteraction, dopaminergic synapse, glutamatergic synapse等生物学功能。

对每个lncRNA模块相关的mRNA进行EnrichedGene Ontology (GO) terms和KEGG pathways研究,从而可以发现模块基因集相关的生物学功能,如M1 lncRNAs (CB module)最显著富集于 Fanconi anemia 通路。

这个套路在TCGA数据库里面已经被玩烂了,大家可以去数据库里面搜索看看。

step8:鉴定全新的lncRNA

这个时候已经不是表达矩阵的事情了,要从新从fastq测序数据开始。

对测序后的fastq数据进行转录本的组装。基于组装后的转录本,通过数据库注释去掉编码蛋白质的mRNA以及数据库中收集的已知的lncRNA,对剩余的转录本进行生物信息学分析,最终鉴定出全新的lncRNA,作为后续研究的起点。

Step9:确认lncRNA是否真的是lncRNA

lncRNA具有一系列独特特性,这些特性与编码蛋白质的mRNA有或多或少的区别。需要将鉴定出的新lncRNA与数据库中的lncRNA以及蛋白质编码基因属性进行比较,从而确定它们是否为真正的lncRNA。

这些属性包括,转录本长度,表达水平,保守性(外显子和内含子),GWAS SNP的富集等等。如果这些属性与已知的lncRNA类似,且与蛋白编码基因差别大则说明鉴定出的lncRNA为真正的lncRNA。

lncRNA到底能不能翻译,还得看其自身先天条件——是否具有核糖体结合位点;是否具有开放阅读框(ORF)。只有两种条件都符合(满足开放阅读框,核糖体结合位点),并且翻译的多肽在物种间具有一定保守性,那么该lncRNAc才算是有了翻译的本钱。

step10:lncRNA其它数据库

1.DIANA-LncBase v2——http://www.microrna.gr/LncBase

2.LNCediting——http://bioinfo.life.hust.edu.cn/LNCediting/

3.NPInter v3.0——http://www.bioinfo.org/NPInter/

4.lncReg——http://bioinformatics.ustc.edu.cn/lncreg/

5.LNCipedia v4.0——http://www.lncipedia.org

6.LncRNAMAP——http://lncRNAMap.mbc.nctu.edu.tw/

Lnc2Meth (http://www.bio-bigdata.com/Lnc2Meth/) 就是一个基于已有发表文献结果,对其中涉及到在特定研究疾病中的lncRNA及其甲基化结果进行了整理归纳收录的数据库。其中,对于每一个lncRNA都会提供DNA甲基化区域、类型和调控机制,而其是否在文献报道中有作为诊断分子以及其发表文献信息等都有整理。

lncSNP2.0 (http://210.46.80.146/lincsnp/search.php) 当仍不让的成为大家的首选工具,它是由华中科技大学研究人员开发的专门收录lncRNA和SNP关联信息的数据库,包含人和小鼠两个物种。

RegRNA2.0 (http://regrna2.mbc.nctu.edu.tw/index.html) 是由台湾同胞所研发的,专用来预测RNA功能性的motif序列,其预测内容包含转录motif、mRNA降解原件、RNA-RNA结合、翻译预测等功能。

背景知识

这些知识没什么好说的,主要靠看文献,自己收集整理。

希望大家主要了解这8个方面:LncRNA的定义、LncRNA的发现、LncRNA的分类、LncRNA的功能、LncRNA的作用模式、LncRNA的争议、LncRNA的常用数据库以及LncRNA的研究模式。参考:http://www.biotrainee.com/thread-2485-1-1.html

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2017-12-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CreateAMind

Deep Learning Book 中文第七章 深度学习的正则化

深入分析各种正则化方法:L2、L1;数据集增强;噪音;半监督;多任务;提前终止(过犹不及^_^);参数共享;稀疏;Bagging;DropOut(进化生物基因)...

611
来自专栏DHUtoBUAA

基于电子海图的水面无人艇全局路径规划

  该论文已经在ICMIR2017会议上发表,附上springer的文献地址 Research and Implementation of Global Pat...

2385
来自专栏思影科技

《大话脑成像》系列之二:不同模态脑网络的构建

接上回 只见孔乙己涨红了脸,额上的青筋条条绽出,争辩道,“这不能算报错……是BUG!……写代码的事,能算错么?”接连便是难懂的话,什么“涡旋噪声”、“敏捷开发...

2726
来自专栏AI科技大本营的专栏

实战 | 让机器人替你聊天,还不被人看出破绽?来,手把手教你训练一个克隆版的你

编译 | AI科技大本营(rgznai100) 参与 | 史天 聊天机器人到底是什么呢?说白了,就是计算机程序通过听觉或文本方法进行对话。 当今最流行的四个对话...

3578
来自专栏数据派THU

怎样构建中文文本标注工具?(附工具、代码、论文等资源)

来源:Paperweekly 本文长度为2218字,建议阅读4分钟 本文为你介绍中文文本标注工具的构建方法,并提供多个开源文本标注工具。 项目地址: https...

5837
来自专栏大数据挖掘DT机器学习

基于libsvm的中文文本分类原型

李海波 http://blog.csdn.net/marising/article/details/5844063 支持向量机(Support Vector...

3948
来自专栏量子位

Chrome暗藏的恐龙跳一跳,已经被AI轻松掌握了

作为一个Google Chrome浏览器的用户,当你看到上面那个页面时,不要沮丧。换个角度一想,墙内还能有更多的Play时间哦~

733
来自专栏AI研习社

深度学习下的医学图像分析(一)

AI 研习社按:本文由图普科技编译自《Medical Image Analysis with Deep Learning 》,雷锋网(公众号:雷锋网)独家首发。...

3975
来自专栏企鹅号快讯

2017年度盘点:Github上十大有趣的机器学习项目

目录: 1 AlphaZero-Gomoku 2 OpenPose 3 Face Recognition 4 Magenta 5 YOLOv2 6 MUSE 7...

3058
来自专栏生信技能树

GSEA分析一文就够(单机版+R语言版)

通过前面的讲解,我们顺利的了解了GEO数据库以及如何下载其数据,得到我们想要的表达矩阵,但,这只是分析的开始,最经典的分析就是GSEA了,看看基因全局表达量的变...

4785

扫描关注云+社区