前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >使用MuSE软件找somatic mutation

使用MuSE软件找somatic mutation

作者头像
生信技能树
发布2020-10-26 10:48:38
1.2K0
发布2020-10-26 10:48:38
举报
文章被收录于专栏:生信技能树生信技能树

MuSE软件发表在2016年8月的Genome Biology 杂志,文章标题是;《MuSE: accounting for tumor heterogeneity using a sample-specific error model improves sensitivity and specificity in mutation calling from sequencing data》

软件链接是:MuSE (http://bioinformatics.mdanderson.org/main/MuSE), 大名鼎鼎的 MD Anderson 出品的软件,肯定是值得一用,而且还是TCGA的官方推荐的4个软件之一。

首先下载安装MuSE

代码语言:javascript
复制
mkdir -p $HOME/biosoft/MuSE
cd $HOME/biosoft/MuSE
wget http://bioinformatics.mdanderson.org/Software/MuSE/MuSEv1.0rc_submission_b391201 
mv MuSEv1.0rc_submission_b391201 muse
chmod 777 muse
$HOME/biosoft/MuSE/muse

该软件也是很久没有更新了:

代码语言:javascript
复制
Version: v1.0rc
         Build Date Jun  3 2015
         Build Time 10:30:35

处于基本上用完了也没办法检查结果的好坏的境况。

针对N-T配对的bam文件运行MuSE

首先是在单个病人的N-T配对的bam文件测试MuSE软件的用法,这里有两个命令需要衔接一下,首先是muse call然后是muse sump ,需要参考基因组以及dbSNP数据库文件。

代码语言:javascript
复制
ref=$HOME/biosoft/GATK/resources/bundle/hg38/Homo_sapiens_assembly38.fasta 
dbsnp=$HOME/biosoft/GATK/resources/bundle/hg38/dbsnp_146.hg38.vcf.gz
normal_bam=N_recal.bam
tumor_bam=T_recal.bam
sample=test
$HOME/biosoft/MuSE/muse call -O $sample -f $ref $tumor_bam $normal_bam
$HOME/biosoft/MuSE/muse sump -I $sample.MuSE.txt -E –O $sample.vcf –D $dbsnp

结果文件,就是典型的VCF格式,而且tags不多值得注意的只有ID=SS,Number=1,Type=Integer,Description="Variant status relative to non-adjacent Normal,0=wildtype,1=germline,2=somatic,3=LOH,4=post-transcriptional modification,5=unknown

前5列CHROM POS ID REF ALT很正常,第6列QUAL全部是点,第7列FILTER 把位点分级了。第8列是 INFO 信息,全部是SOMATIC

第9,10,11列是GT:DP:AD:BQ:SS 格式的tumor和normal,可以看到normal都是野生型0/0, tumor全部是杂合突变1/0,只是allel frequency不同而已,介于0~1之间。

一般来说,都是一大波样品批量运行啦, 需要一个config文件,主要是3列信息:

  • 第一列是肿瘤命名
  • 第二列是肿瘤病人的normal组织的bam文件地址
  • 第三列是肿瘤病人的肿瘤组织的bam文件地址。

批量运行muse的脚本如下:

代码语言:javascript
复制
ref=$HOME/biosoft/GATK/resources/bundle/hg38/Homo_sapiens_assembly38.fasta
dbsnp=$HOME/biosoft/GATK/resources/bundle/hg38/dbsnp_146.hg38.vcf.gz
$HOME/biosoft/MuSE/muse call

cat $config_file |while read id
do
	arr=($id)
	normal_bam=${arr[1]}
	tumor_bam=${arr[2]}
	sample=${arr[0]}

	if((i%$number1==$number2))
	then
		if [  ! -f ${sample}_muse.vcf ]; then


$HOME/biosoft/MuSE/muse call -O $sample -f $ref $tumor_bam $normal_bam
$HOME/biosoft/MuSE/muse sump -I $sample.MuSE.txt -E -O$sample.vcf -D $dbsnp

		fi

	fi
	i=$((i+1))

done

从数量上,这个muse软件作为TCGA的官方推荐的4个软件还是很靠谱的。

昨天分享的SNVSniffer软件得到的vcf文件,每个肿瘤WES都是几万个somatic突变信息,太可怕了!!!一般来说,肿瘤WES的每个病人也就是几百个somatic突变信息的数量级。

下面是TCGA计划采取的软件:

  • MuSE
  • varscan
  • MuTect
  • SomaticSniper

大家可以去下载到TCGA计划的这4个软件输出的maf文件格式的somatic突变信息文件哦。

附上TCGA数据库maf突变资料官方大全

因为TCGA计划跨时太长,这些年找somatic变异的软件也很多,所以TCGA团队下功夫在计划结束后(April 2018)完整的系统性的整理了最后的somatic突变数据。依托于文章:Scalable Open Science Approach for Mutation Calling of Tumor Exomes Using Multiple Genomic Pipelines March 201810.1016/j.cels.2018.03.002

全部样本的somatic变异文件合并起来是七百多M,MC3 Public MAF - mc3.v0.2.8.PUBLIC.maf.gz

  • 下载链接是:https://api.gdc.cancer.gov/data/1c8cfe5f-e52d-41ba-94da-f15ea1337efc
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-10-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 首先下载安装MuSE
  • 针对N-T配对的bam文件运行MuSE
  • 附上TCGA数据库maf突变资料官方大全
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档