专栏首页百味科研芝士手把手学习TCGA数据库:SNP突变分析第三期

手把手学习TCGA数据库:SNP突变分析第三期

各位科研芝士的朋友好,前两期我们讲解了SNP的基础知识和数据库使用,今天我们继续聊SNP数据的下载

TCGA网址亮出:https://portal.gdc.cancer.gov/

我们点击Repository,进入下面的界面:

接着我们点击case,选择我们需要研究的癌症,比如喉癌Larynx

同时,我们可以在右侧方框看到我们每次点击的内容,记录了我们挑选的历史,接着我们点击Files,选择Simple Nucleotide Variation,即代表SNV,界面如下:

在Data Type里面存在四个数据类型,你以为你随便可以下载吗?哈哈,too young,比如上面我们选择了Aggregated Somatic Mutation,我们却发现这些文件却被写保护了,不支持下载,实际上我们唯一可以下载的便是Masked Somatic Mutation,这个时候我们点击进去,便会出现下面的界面:

在2中我们可以看到变为open了,代表数据支持下载了,恭喜你可以看到数据下载了,接着我们需要点击Workflow Type,进入如下界面:

可以在Workflow Type里面存在四个选项,MuSE Variant Aggregation and Masking,MuTect2 Variant Aggregation and Masking,SomaticSniper Variant Aggregation and Masking,VarScan2 Variant Aggregation and Masking,分别代表用四个软件计算出来的SNP的信息,四个软件分别采用四个不同的流程来处理数据计算得出的SNP信息,我们可以选择一种进行下载,比如我们选择VarScan2 Variant Aggregation and Masking

在Data Format里面只有一个MAF格式文件,代表我们下载的是maf格式的突变信息,接着下载就可以了。

点击download即可。

我们一鼓作气,继续分享关于TCGA_SNP下载的知识,还记得我们之前推文说过的,在TCGA的武林里,总有一个出类拔萃的佼佼者的神包——TCGAbiolinks,链接:手把手教你用R语言下载TCGA数据库:TCGAbiolinks

复习一下该包TCGAbiolinks,它是GDC官方推荐了一款第三方工具,通过GDC官方API下载数据,保证数据的及时性和准确性,同时也提供数据整理、聚类分析、差异分析、富集分析等功能。

首先是TCGAbiolinks的安装和加载,TCGAbiolinks对于R的版本要求较高,建议在3.4以上的版本进行

下面开启你的R界面,学习该包:

1.TCGAbiolinks安装,借助BiocManager安装,前提也是你要安装好BiocManager,命令如下

2.加载该包

Ok,可以看到没有任何问题,这也表明,我们安装并成功加载该工具包

再用该工具包下载突变数据的时候,可以支持hg38和hg19,两种形式的突变数据下载

3. 首先基于hg38下载数据,这里以头颈癌为例子,首先要定义头颈癌在TCGA里面的ID信息,为TCGA-HNSC,首先建立搜索索引,这里建立的便是MAF文件的索引:

在pipeline便可以选择四种流程进行下载,比如上面选择muse,除此之外,还可以选择varscan2,somaticsniper,mutect2等

轻松便可以下载了hg38的muf文件。

4.hg19的maf文件,便和我们下载RNAseq似曾相识,使用 GDCquery, GDCdownload and GDCpreprare 来下载

5.建立索引

这一步十分重要是后续操作的关键,需要输入四个参数,分别是project 代表项目ID, data.category参数需要我们输入数据集类型,比如我们下载的是SNV数据,就是写入"Simple nucleotide variation",data.type是代表输入的为Simple somatic mutation,另外一个注意的点便是access代表权限的问题,我们选择open

6.建立好索引,下一步便进行数据下载,命令及其简单,使用GDCdownload命令完成下载:

可以看到266兆,一次性下载了4套流程的maf文件

Ok,今天的教程主要是带大家体验基于在线网站及R语言对TCGA的SNP数据下载,下期我们继续推出SNP数据下载的其他方式。

—END—

本文分享自微信公众号 - 百味科研芝士(keyanzhishi),作者:Sun

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-06-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 手把手教你用R语言下载TCGA数据库:GDCRNAtools

    各位科研芝士的朋友,大家好,今天我们继续分享关于TCGA数据下载的专题,如果你看完了前面所有的关于TCGA推文,那么你对TCGA将不再陌生,这个时候的你不仅学会...

    百味科研芝士
  • 手把手教你专利全文下载方法

    最近在检索文献时,忽然发现了和检索文献高度相关的专利,又想到以前听老师说有人申请了什么什么专利,想了解详细信息却苦苦无门;或者看文献时,提到所用药物已申请中国专...

    百味科研芝士
  • PubMed专题:(一)如何精准高效地进行文献搜索

    文献搜索在每个科学家的日常生活中都是不变的。我们花费大部分时间来积累信息。无论是编写一个基金本子,设计/排除一个棘手的实验···这都需要我们了解领域的最新动态。...

    百味科研芝士
  • 【分享】提升Xilinx文件(国外文件)下载速度和可靠性的办法

    Xilinx文件基本都放在国外的服务器上。如果直接使用浏览器下载,在国内下载,速度一般比较慢。如果超过时间没有下载完,连接还会失效,导致反复下载也不能成功,成功...

    hankfu
  • 【新手指南】如何用Ettercap实现“中间人攻击”(二):HTTP数据劫持

    作为《新手指南:如何用Ettercap实现“中间人攻击”》工具介绍的续篇,本文以某知名下载网站为例,从实战角度出发,分析交互过程,逐步介绍了利用Etterca...

    FB客服
  • 下载NCBI SRA数据的最佳方法

    高通量的原始数据通常情况下会上传到NCBI的SRA(Sequence Read Archive)数据库。当我们需要用到这些数据的时候,就需要合适的方法来下载。

    阿凡亮
  • golang 自动下载所有依赖包

    大部分情况下大家下载 Go 项目都是使用go get命令,它除了会下载指定的项目代码,还会去下载这个项目所依赖的所有项目。

    landv
  • 攻击者正在向云端转移

    最近研究Legion Loader恶意软件时,研究人员偶然发现了一个下载装置,从云服务下载执行恶意有效负载。在寻找其他类似的样本发现:8,000个URL,10,...

    FB客服
  • CDB无法下载备份失败处理方法

    使用CDB的过程中有需要下载备份,日志的需求,如下载冷备份文件,binlog文件,慢查询,错误日志等,可以通过在控制台下载,下载方式为:1. 通过内网(确保...

    HappyLau谈云计算
  • 手把手教你用R语言下载TCGA数据库:GDCRNAtools

    各位科研芝士的朋友,大家好,今天我们继续分享关于TCGA数据下载的专题,如果你看完了前面所有的关于TCGA推文,那么你对TCGA将不再陌生,这个时候的你不仅学会...

    百味科研芝士

扫码关注云+社区

领取腾讯云代金券