TCGA官网:https://portal.gdc.cancer.gov/
至于使用教程,可阅读之前的文章:TCGA数据库使用教程。
关于miRNA的基础知识可参考文章:医学科研实验基础知识笔记(十一):非编码RNA。
关于下载的方式很多,也可以参考差异分析的视频,特别是R包(R语言课程),后续会不段深入介绍,不过这里,我们介绍网页在线下载后自己处理数据。
网页筛选条件,Flies栏按下图筛选:
切换到case栏,选择我们要分析的肿瘤,这里下载TCGA-COAD的数据。
其他的信息,比如疾病类型,性别等根据自己需要选择。
筛选数据后,添加到cart。
Downloadcart文件,和metadata文件(json格式),json文件用于找到文件名与barcode之间的对于关系。
下载后的2个文件:
我们解压压缩包后,就可以是很多文件夹:
每一个文件夹中的txt文件就是一个病人的数据。
miRNA_ID:miRBase v21数据库中收录的miRNA名称
read_count:miRNA原始reads数,用于表达定量;
reads_per_million_miRNA_mapped:每百万reads中来自于该miRNA的reads数,简称RPM;具体可参考文章:RNA-seq的counts,RPM, RPKM, FPK值到底有什么区别?
cross-mapped:miRNA是否比对到多个位置;
miRNA表达数据下载就算完成了!
重要的是,数据的整理,我们需要整理成下面这样的数据。
Counts数据。
RPM数据
然后我们就可以进行后续的分析了,比如:
差异分析:一文就会TCGA数据库基因表达差异分析。
与临床数据结合的分析:一个R脚本解决某类功能基因(比如m6A甲基化)临床预后模型分析流程.等。
此外,TCGA数据库中处理直接下载的miRNA-Seq之外,Gene Expression Quantification里面的RNA-Seq数据中也有非编码RNA的数据,比如lncRNA等。我也把TCGA数据库33个Project的RNA-Seq转录组数据都处理好了,后续会介绍怎么处理
本文分享自 MedBioInfoCloud 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!