专栏首页生物信息云UCSC数据库下载TCGA数据需要注意的细节

UCSC数据库下载TCGA数据需要注意的细节

前面关于TCGA的教程我介绍很多,包括数据下载和一些简单的分析以及数据的处理,这里介绍还是介绍数据的下载,前面介绍过从网页下载后直接整理,或者利用R包下载,这里介绍基于TCGA数据开发的一些工具——UCSC。从UCSC下载TCGA数据比较简单。

UCSC主页:https://xenabrowser.net

更多数据库,阅读文章【【收藏】生物数据库大合集

这是一个在线工具,可以在线分析数据,这里不介绍,只介绍下载数据。在首页左上角选择DATA SETS。我们就会看到该数据库的数据集。也可以直接通过下面链接直达:https://xenabrowser.net/datapages/

往下拉,就可以看见TCGA的数据集。

我随便选择一个, GDC TCGA Lung Adenocarcinoma (LUAD),我们进去就可以看到各种数据。

比如选择RNASeq是数据

就可以看见数据的详细信息,在download处的链接就可以下载数据了。这里的FPKM数据进行了log2(fpkm+1)转换,需要注意。你自己可以把他转换回来。就连counts的数据也进行了log2转换,按照数学公式转换会回去就不是整数了,许多包的分析是基于counts数的,需要整数,这点需要注意。当然,这些数据之间是可以转换的,可参考文章:

【1】RNA-seq的counts,RPM, RPKM, FPK值到底有什么区别?

【2】RNA-Seq的Counts和FPKM数据如何转换成TPM?

其他数据下载也是一样的,需要注意的是看描述信息,该数据库对数据进行了怎样的处理。还有就是时间,我们可以看到上面的数据是2019年7月份的,RNAseq数据,甲基化数据等时间上没有影响,因为这些就算TCGA数据库更新,它也不会变,重要的是临床数据,如果需要最新的临床数据,还是从官网下载临床数据。因为临床数据是不断变化的

本文分享自微信公众号 - MedBioInfoCloud(MedBioInfoCloud),作者:DoubleHelix

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-08-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • TCGA数据挖掘(一):TCGAbiolinks包介绍

    肿瘤基因组图谱(TCGA)计划是由美国National Cancer Institute(NCI)和National Human Genome Research...

    DoubleHelix
  • R语言TCGA-Assembler包下载TCGA数据

    通过官网下载(需要注册),或者百度一下也有资源。需要注意的是要下载最新版,百度或者谷歌的不一定是最新版本,最好在官网下载,但是现在有一个问题,注册账号时验证码的...

    DoubleHelix
  • TCGA数据库:SNP数据的下载整理及其可视化

    单核苷酸多态性主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。它是人类可遗传的变异中最常见的一种,占所有已知多态性的90%以上。SNP在人类基...

    DoubleHelix
  • 2017作为大数据爆发年,将会对企业产生6大影响

    ·人工智能(AI)将再度盛行 早在60年代,RaySolomonoff奠定了人工智能的数学理论基础,引入通用贝叶斯原理(Bayesian)来归纳推理和预测。1...

    BestSDK
  • 中国数据驱动型互联网企业大数据产品研究报告

    本报告的大数据产业图谱以大数据产品的角度出发,对产业链角色进行划分。其中,数据管理与数据分析部分包括了大数据基础架构及相关分析技术,能够实现大数据的存储、分析、...

    钱塘数据
  • CRA简报:计算研究与数据科学的新兴领域

    大数据文摘
  • 推荐收藏 | 100个数据分析常用指标和术语

    有个朋友是金融行业产品经理,最近在对已有的站内用户做分层与标签分类,需要对用户进行聚类分析。一般从事数据分析行业的朋友对这类词并不陌生,但是像市场运营人员就会把...

    石晓文
  • 这100多个数据分析常用指标和术语你都分清楚了吗?

    有个朋友是金融行业产品经理,最近在对已有的站内用户做分层与标签分类,需要对用户进行聚类分析。一般从事数据分析行业的朋友对这类词并不陌生,但是像市场运营人员就会把...

    1480
  • 睿码科技执行董事王海婷:大数据在治理雾霾方面有很多事可做

    数据猿导读 国内的研究机构认为,2018年我国大数据市场规模将超过 1500 亿元,但是目前大数据与环保相结合的还是少数。本文中,睿码科技执行董事王海婷将给大家...

    数据猿
  • 小白也能快速入门的4步数据驱动运营法!

    在这个数据驱动运营的时代,数据不仅是数据工程师和分析师的事情,在工作中也要求运营从业者有一定的数据分析能力,更有人说“数据分析能力是未来运营的分水岭”。从我自身...

    1480

扫码关注云+社区

领取腾讯云代金券