专栏首页生信技能树把vcf文件转换为maf格式,肿瘤外显子上游分析教程到此为止

把vcf文件转换为maf格式,肿瘤外显子上游分析教程到此为止

完全看懂这个教程需要的背景知识比较多!

生信技能树GATK4系列教程

GATK4的gvcf流程

你以为的可能不是你以为的

新鲜出炉的GATK4培训教材全套PPT,赶快下载学习吧

曾老湿最新私已:GATK4实战教程

GATK4的CNV流程-hg38

然后是 CNV相关工具

WES的CNV探究-conifer软件使用

单个样本NGS数据如何做拷贝数变异分析呢

肿瘤配对样本用varscan 做cnv分析

使用cnvkit来对大批量wes样本找cnv

使用sequenza软件判定肿瘤纯度

还有vcf和maf的工具:

安装VEP及其注释数据库

肿瘤突变数据可视化神器-maftools

可能还有一些教程我漏掉了,毕竟这些年发布了近万篇教程了,大家直接我去我博客,生信菜鸟团就可以搜索,去我们的论坛,生信技能树里面也可以搜到。

假设已经安装了VEP软件,对自己的vcf进行了注释,然后就可以进行转换:

https://github.com/mskcc/vcf2maf

安装GitHub上面的小工具

cd ~/biosoft/vcf2maf/
export VCF2MAF_URL=`curl -sL https://api.github.com/repos/mskcc/vcf2maf/releases | grep -m1 tarball_url | cut -d\" -f4`
curl -L -o mskcc-vcf2maf.tar.gz $VCF2MAF_URL; tar -zxf mskcc-vcf2maf.tar.gz; cd mskcc-vcf2maf-*
mv * ../ 
perl ~/biosoft/vcf2maf/vcf2maf.pl --man 

帮助文档如下:

[jianmingzeng@jade mskcc-vcf2maf-747a1bb]$ perl vcf2maf.pl  --help
Usage:
     perl vcf2maf.pl --help
     perl vcf2maf.pl --input-vcf WD4086.vcf --output-maf WD4086.maf --tumor-id WD4086 --normal-id NB4086
Options:
     --input-vcf      Path to input file in VCF format
     --output-maf     Path to output MAF file
     --tmp-dir        Folder to retain intermediate VCFs after runtime [Default: Folder containing input VCF]
     --tumor-id       Tumor_Sample_Barcode to report in the MAF [TUMOR]
     --normal-id      Matched_Norm_Sample_Barcode to report in the MAF [NORMAL]
     --vcf-tumor-id   Tumor sample ID used in VCF's genotype columns [--tumor-id]
     --vcf-normal-id  Matched normal ID used in VCF's genotype columns [--normal-id]
     --custom-enst    List of custom ENST IDs that override canonical selection
     --vep-path       Folder containing the vep script [~/vep]
     --vep-data       VEP's base cache/plugin directory [~/.vep]
     --vep-forks      Number of forked processes to use when running VEP [4]
     --buffer-size    Number of variants VEP loads at a time; Reduce this for low memory systems [5000]
     --any-allele     When reporting co-located variants, allow mismatched variant alleles too
     --ref-fasta      Reference FASTA file [~/.vep/homo_sapiens/91_GRCh37/Homo_sapiens.GRCh37.75.dna.primary_assembly.fa.gz]
     --filter-vcf     A VCF for FILTER tag common_variant. Set to 0 to disable [~/.vep/ExAC_nonTCGA.r0.3.1.sites.vep.vcf.gz]
     --max-filter-ac  Use tag common_variant if the filter-vcf reports a subpopulation AC higher than this [10]
     --species        Ensembl-friendly name of species (e.g. mus_musculus for mouse) [homo_sapiens]
     --ncbi-build     NCBI reference assembly of variants MAF (e.g. GRCm38 for mouse) [GRCh37]
     --cache-version  Version of offline cache to use with VEP (e.g. 75, 84, 91) [Default: Installed version]
     --maf-center     Variant calling center to report in MAF [.]
     --retain-info    Comma-delimited names of INFO fields to retain as extra columns in MAF []
     --min-hom-vaf    If GT undefined in VCF, minimum allele fraction to call a variant homozygous [0.7]
     --remap-chain    Chain file to remap variants to a different assembly before running VEP
     --help           Print a brief help message and quit
     --man            Print the detailed manual

上面的命令参数看的头晕,没关系,学习一个新的软件最好的方法就是实践:

## 自己单独运行VEP,注释速度很慢
# Processed 1969 total variants (9 vars/sec, 9 vars/sec total)
perl ~/vep/variant_effect_predictor.pl  -i somatic.vcf  -o test.vcf  \
--cache --force_overwrite  --assembly GRCh38 --vcf
# 看起来上面的VEP完全没有必要运行

# 一步到位,包括VEP和 vcf2maf,而且注释非常快,因为调用了5个线程
# Processed 1969 total variants (53 vars/sec, 53 vars/sec total)
 perl ~/biosoft/vcf2maf/vcf2maf.pl --input-vcf somatic.vcf   --output-maf test.maf  \
 --ref-fasta ~/.vep/homo_sapiens/86_GRCh38/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz \
 --tumor-id 1092NTT  --normal-id  1257NT --ncbi-build GRCh38

通常我们是批量运行:

for i in  *filter.vcf ;
do
echo $i
j=$(basename "$i" _filter.vcf )
echo ${j^^}
perl ~/biosoft/vcf2maf/vcf2maf.pl --input-vcf $i   --output-maf ${j^^}.maf  \
--ref-fasta ~/.vep/homo_sapiens/86_GRCh38/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz \
--tumor-id  ${j^^}_T  --normal-id ${j^^}_N --ncbi-build GRCh38
done 
1.3M May 30 14:00 OSCC_01.maf
745K May 30 14:01 OSCC_04.maf
576K May 30 14:01 OSCC_06.maf
730K May 30 14:02 OSCC_09.maf

默认调用5个线程,所以注释速度非常快!!!

得到的maf后,肿瘤外显子测序数据的上游分析就到此为止了,接下来的下游分析,也就是联系自己的项目设计实际情况来讲生物学故事,会更折磨人!!!

如果你没有自己的肿瘤外显子下面,却想一步到位拿到maf去练手,可以直接下载tcga数据库的,看昨天教程:

生信小技巧第8课,加上 TCGA的28篇教程- 批量下载TCGA所有数据

比如你可以下载TCGA里面的乳腺癌的1000个左右的样本的突变信息,绘图如下:

本文分享自微信公众号 - 生信技能树(biotrainee)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-06-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • R语言代码相关疑问标准提问

    还亲自写了一个提问参考范文:如果这样问问题,大家可能会更趋向于帮助我 ,都是非常值得大家学习的,不过对于简单的R代码咨询,主要都是一些ID转换,字符串操作技巧等...

    生信技能树
  • 比较不同单细胞转录组数据寻找features方法

    挑选到的跟feature相关的基因集,有点类似于在某些组间差异表达的基因集,都需要后续功能注释。 背景介绍 单细胞转录组测序的确可以一次性对所有细胞都检测到上千...

    生信技能树
  • R语言完成自动化三线表

    但是迁移到临床数据里面,就稍微复杂了一点,就是把条目繁多的临床资料整理一下,比如下面这些信息:

    生信技能树
  • 理解zookeeper选举机制

    zookeeper集群 配置多个实例共同构成一个集群对外提供服务以达到水平扩展的目的,每个服务器上的数据是相同的,每一个服务器均可以对外提供读和写的服务,这点...

    Albert陈凯
  • KNN算法及python实现

            KNN算法即K-Nearest Neighbor,也是机器学习十大经典算法之一。前文讲解了K-means算法,今天我们就继续讲KNN算法,两者看...

    Flaneur
  • 快速入门 Linux 云服务器

    准备与选型注册腾讯云账号新用户需在腾讯云官网进行【注册】。注册指引可参考 如何注册腾讯云 。确定云服务器所在地域及可用区地域选择原则:靠近用户原则。

    云优惠
  • php中isset与empty函数的困惑与用法分析

    本文实例讲述了php中isset与empty函数的困惑与用法。分享给大家供大家参考,具体如下:

    砸漏
  • H2Engine服务器引擎介绍

    H2Engine服务器引擎介绍 简介   H2Engine服务器引擎架构是轻量级的,与其说是引擎,个人觉得称之为平台更为合适。因为它封装的功能非常精简,但是提供...

    知然
  • 【tensorflow2.0】评价指标metrics

    损失函数除了作为模型训练时候的优化目标,也能够作为模型好坏的一种评价指标。但通常人们还会从其它角度评估模型的好坏。

    绝命生
  • Linux家族太庞大 他们中你最宠谁?

    爱Linux的人太多,但却爱的都是不同的版本。今天我们就来看看Linux究竟都有哪些“七十二变”,这其中你最喜欢的Linux版本又是哪个?另外,笔者还列举了几个...

    Java帮帮

扫码关注云+社区

领取腾讯云代金券