上次通过deconstructSigs|探寻cosmic的独特“气质”-mutation signature !学会了如何利用deconstructSigs-R包进行mutation signature分析。
Mutational Signatures 出现在2013年的nature文章Signatures of mutational processes in human cancer中(https://www.nature.com/articles/nature12477)。将mutation位置加上前后一个碱基,构成三碱基模式,然后统计96(6 * 4 * 4)种突变组合的情况。
突变信号(Mutational Signatures)首次2013年在《nature》进行报道。并做了相关的定义:细胞在成长过程中,基因组不断受到内源性和外源性DNA损伤的威胁,正是由于这些威胁,使得细胞基因组不断发生变化,并最终发生一些突变的积累。每一个突变过程都会留下一个不同的基因组标记,也就称为突变信号。
在文章最后利用每个样本的96种三碱基类型在最后绘制了柱形图,本文利用同样的数据绘制乐高图,下图为文献插图
才sanger研究所已经做好了这个分析,但是值得我们重复一下,效果如下: TCGA所有癌症的mutation signature 首先TCGA所有癌症的maf文件 maf格式的mutation记录文件
面对大量的SNV突变数据你是否还觉得无从下手,不知道怎么分析合适?今天给大家介绍一个R包-deconstructSigs。这款R包是基于大样本量预测的signature解析突变特征。在很多文献中都有用到,那么今天就让我们学习起来吧!
对wgs数据的somatic突变文件自己推断denovo的signature,可以使用SomaticSignatures 包的identifySignatures函数,这个教程我在生信技能树分享过:使用R包SomaticSignatures进行denovo的signature推断,比如:0元,10小时教学视频直播《跟着百度李彦宏学习肿瘤基因组测序数据分析》 这个文献,研究者就是使用R包SomaticSignatures进行denovo的signature推断,拿到了11个自定义的signature。
今天给大家带来的是signature分析的R包“YAPSA”,让大家在分析signature的时候多一个选择,增加绘图展示的多样性,最重要的是让你的老板知道你有多优秀。
而且通常我们是大队列研究,几百个病人的几百个甚至上万个突变位点, 研究起来压力会很大,通常大家会看一下突变全景图,如下:
有这个想法很久了,我教了很多人如何批量下载TCGA数据,以及分析各个癌症的somatic突变信息以及TMB,还有突变的特征频谱。
mSignatureDB是一个肿瘤突变特征的数据库,以COSMIC数据库中收录的30种突变特征作为参照,分析了来自TCGA和ICGC中约15000多个肿瘤样本中这30种突变特征的构成,文章发表在Nucleic Acids Research上,链接接如下
第一步:安装R语言及Rstudio 首先根据操作系统来安装R语言软件 最好是安装最新版 Download R for Windows from CRAN Download R for macOS from CRAN Download R for Linux from CRAN Note for macOS: If you do not already have X11 installed in Applications > X11, download and install it. 这个很容易,就跟下载QQ
为了能更方便的查看,检索,对文章进行了精心的整理(PLUS)。建议收藏,各取所需,当前没用也许以后就用到了呢!
qinqinyang的博客:http://www.cnblogs.com/qiniqnyang/
实际上你的关注本身就说明了问题,只不过呢你欠缺那临门一脚,人生很长,你的科研生涯可能还有35年之久,你现在学会数据处理,这个技能的掌握其实是最大化受益!现在,哪怕是全新细胞系模型的提出也需要ngs数据支持啦,比如文章:《Establishment and Characterization of a Brca1−/−**, p53**−/− Mouse Mammary Tumor Cell Line》
前面我们详细讲解过,sanger研究所科学家【1】提出来了肿瘤somatic突变的signature概念 ,把96突变频谱的非负矩阵分解后的30个特征,在cosmic数据库可以学习它。不同的特征有不同的生物学含义【2】,比如文章【3】 就是使用了 这些signature区分生存!主要是R包deconstructSigs可以把自己的96突变频谱对应到cosmic数据库的30个突变特征。
前面我们在教程:使用R包deconstructSigs根据已知的signature进行比例推断,顺利的把508个病人,根据11个signature进行了比例推断,得到的比例矩阵以普通的热图,以及pheatmap包自带的层次聚类如下:
Spatial intratumoral heterogeneity and temporal clonal evolution in esophageal squamous cell carcinoma
它提出来了 single-cell inferred chromosomal copy number variation (sciCNV), a tool for inferring single-cell CNVs from scRNA-seq at 19-46 Mb resolution.
也就是说,任意癌症,很容易在TCGA数据库下载到其肿瘤外显子队列的somatic突变信息,包括SNV和CNV,这样的话,除非大家感兴趣的疾病并不在TCGA数据库里面,或者说具有其它特殊性(比如人种),否则都不建议继续设计这样的简单的课题了。
前面我在生信菜鸟团的肿瘤外显子数据分析专辑提到了,很多研究者会嫌弃cosmic数据库的30个肿瘤突变signatures,他们觉得cosmic数据库30个signature的生物学意义并不好,会尝试自己分解出来自己的signature。比如:0元,10小时教学视频直播《跟着百度李彦宏学习肿瘤基因组测序数据分析》 这个文献,研究者就是使用R包SomaticSignatures进行denovo的signature推断,拿到了11个自定义的signature。
大多数肿瘤基因组综述类文章,对于数据分析部分只是介绍了基础分析部分,也就是从原始的 fastq 文件通过质控、比对、GATK流程、Call 变异最后得到 vcf 文件和拷贝数变异的结果就结束了。实际上,得到突变结果 vcf 文件后经过 VEP 或 ANNOVAR 等注释之后,还涉及到很多高级分析方法。主要可以分为以下几点:
值得注意的是作者这里使用PhyloWGS算法的结果来代表肿瘤内部异质性,所有的生物学意义的结论都是基于这个假设。而且根据突变数量和CNV情况对样本进行分类,通过两个阈值可以把肿瘤病人分成4组:
因为是癌症方面,自己不研究这一方面,所以不常用,但是GEO的转录组数据,是根据这个文件改写的
今天和大家分享的是2020年6月发表在CLINICAL CANCER RESEARCH (IF=10.107) 上的一篇文章,作者分析了前列腺癌中BRCA1/2突变与HRD间关系,以帮助筛选出可能对PARP抑制剂或铂类药物治疗有效的病人。
突变模式分析(Mutual Signature Analysis)已经逐步成为变异检测后一个通用分析,本文简单介绍如何使用sigminer进行突变模式分析,以解决2大分析任务:
#没有任何提示就是成功了,如果有warningxx包不存在,用library检查一下。
领取专属 10元无门槛券
手把手带您无忧上云