前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >手把手学习TCGA数据库:SNP突变分析第三期

手把手学习TCGA数据库:SNP突变分析第三期

作者头像
百味科研芝士
发布2019-06-17 17:41:05
4.1K0
发布2019-06-17 17:41:05
举报
文章被收录于专栏:百味科研芝士

各位科研芝士的朋友好,前两期我们讲解了SNP的基础知识和数据库使用,今天我们继续聊SNP数据的下载

TCGA网址亮出:https://portal.gdc.cancer.gov/

我们点击Repository,进入下面的界面:

接着我们点击case,选择我们需要研究的癌症,比如喉癌Larynx

同时,我们可以在右侧方框看到我们每次点击的内容,记录了我们挑选的历史,接着我们点击Files,选择Simple Nucleotide Variation,即代表SNV,界面如下:

在Data Type里面存在四个数据类型,你以为你随便可以下载吗?哈哈,too young,比如上面我们选择了Aggregated Somatic Mutation,我们却发现这些文件却被写保护了,不支持下载,实际上我们唯一可以下载的便是Masked Somatic Mutation,这个时候我们点击进去,便会出现下面的界面:

在2中我们可以看到变为open了,代表数据支持下载了,恭喜你可以看到数据下载了,接着我们需要点击Workflow Type,进入如下界面:

可以在Workflow Type里面存在四个选项,MuSE Variant Aggregation and Masking,MuTect2 Variant Aggregation and Masking,SomaticSniper Variant Aggregation and Masking,VarScan2 Variant Aggregation and Masking,分别代表用四个软件计算出来的SNP的信息,四个软件分别采用四个不同的流程来处理数据计算得出的SNP信息,我们可以选择一种进行下载,比如我们选择VarScan2 Variant Aggregation and Masking

在Data Format里面只有一个MAF格式文件,代表我们下载的是maf格式的突变信息,接着下载就可以了。

点击download即可。

我们一鼓作气,继续分享关于TCGA_SNP下载的知识,还记得我们之前推文说过的,在TCGA的武林里,总有一个出类拔萃的佼佼者的神包——TCGAbiolinks,链接:手把手教你用R语言下载TCGA数据库:TCGAbiolinks

复习一下该包TCGAbiolinks,它是GDC官方推荐了一款第三方工具,通过GDC官方API下载数据,保证数据的及时性和准确性,同时也提供数据整理、聚类分析、差异分析、富集分析等功能。

首先是TCGAbiolinks的安装和加载,TCGAbiolinks对于R的版本要求较高,建议在3.4以上的版本进行

下面开启你的R界面,学习该包:

1.TCGAbiolinks安装,借助BiocManager安装,前提也是你要安装好BiocManager,命令如下

2.加载该包

Ok,可以看到没有任何问题,这也表明,我们安装并成功加载该工具包

再用该工具包下载突变数据的时候,可以支持hg38和hg19,两种形式的突变数据下载

3. 首先基于hg38下载数据,这里以头颈癌为例子,首先要定义头颈癌在TCGA里面的ID信息,为TCGA-HNSC,首先建立搜索索引,这里建立的便是MAF文件的索引:

在pipeline便可以选择四种流程进行下载,比如上面选择muse,除此之外,还可以选择varscan2,somaticsniper,mutect2等

轻松便可以下载了hg38的muf文件。

4.hg19的maf文件,便和我们下载RNAseq似曾相识,使用 GDCquery, GDCdownload and GDCpreprare 来下载

5.建立索引

这一步十分重要是后续操作的关键,需要输入四个参数,分别是project 代表项目ID, data.category参数需要我们输入数据集类型,比如我们下载的是SNV数据,就是写入"Simple nucleotide variation",data.type是代表输入的为Simple somatic mutation,另外一个注意的点便是access代表权限的问题,我们选择open

6.建立好索引,下一步便进行数据下载,命令及其简单,使用GDCdownload命令完成下载:

可以看到266兆,一次性下载了4套流程的maf文件

Ok,今天的教程主要是带大家体验基于在线网站及R语言对TCGA的SNP数据下载,下期我们继续推出SNP数据下载的其他方式。

—END—

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-06-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 百味科研芝士 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档