前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >TCGA数据库:miRNA数据下载与整理

TCGA数据库:miRNA数据下载与整理

作者头像
DoubleHelix
发布2020-05-16 13:54:41
7.7K0
发布2020-05-16 13:54:41
举报
文章被收录于专栏:生物信息云生物信息云

TCGA官网:https://portal.gdc.cancer.gov/

至于使用教程,可阅读之前的文章:TCGA数据库使用教程

关于miRNA的基础知识可参考文章:医学科研实验基础知识笔记(十一):非编码RNA

关于下载的方式很多,也可以参考差异分析的视频,特别是R包(R语言课程),后续会不段深入介绍,不过这里,我们介绍网页在线下载后自己处理数据。

网页筛选条件,Flies栏按下图筛选:

切换到case栏,选择我们要分析的肿瘤,这里下载TCGA-COAD的数据。

其他的信息,比如疾病类型,性别等根据自己需要选择。

筛选数据后,添加到cart。

Downloadcart文件,和metadata文件(json格式),json文件用于找到文件名与barcode之间的对于关系。

下载后的2个文件:

我们解压压缩包后,就可以是很多文件夹:

每一个文件夹中的txt文件就是一个病人的数据。

miRNA_ID:miRBase v21数据库中收录的miRNA名称

read_count:miRNA原始reads数,用于表达定量;

reads_per_million_miRNA_mapped:每百万reads中来自于该miRNA的reads数,简称RPM;具体可参考文章:RNA-seq的counts,RPM, RPKM, FPK值到底有什么区别?

cross-mapped:miRNA是否比对到多个位置;

miRNA表达数据下载就算完成了!

重要的是,数据的整理,我们需要整理成下面这样的数据。

Counts数据。

RPM数据

然后我们就可以进行后续的分析了,比如:

差异分析:一文就会TCGA数据库基因表达差异分析

与临床数据结合的分析:一个R脚本解决某类功能基因(比如m6A甲基化)临床预后模型分析流程.等。

此外,TCGA数据库中处理直接下载的miRNA-Seq之外,Gene Expression Quantification里面的RNA-Seq数据中也有非编码RNA的数据,比如lncRNA等。我也把TCGA数据库33个Project的RNA-Seq转录组数据都处理好了,后续会介绍怎么处理

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-05-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 MedBioInfoCloud 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档