肿瘤DNA测序(比如WES或者WGS),通常是需要取病人的正常组织或者血液,以及肿瘤组织,两个测序结果对比才能定位到真正的肿瘤somatic的SNV。
而且对成百上千的somatic的SNV通常是需要去看突变频谱,比如2020的文章 :《Multiomics profiling of primary lung cancers and distant metastases reveals immunosuppression as a common characteristic of tumor cells with metastatic plasticity》 ,就是简单的做了分析,并且描述一下占比比较高的signature是什么,以及 它的生物学意义:
如下所示的条形图展示各个病人测序结果里面的不同signature占比 :
病人测序结果里面的不同signature占比
而且病人既然是有分组的, primary tumors and metastases ,这两个分组的就可以把突变分成3类:
继续组合后看somatic的SNV的signature,并且进行比例差异展示。
文章:《Germline genomic patterns are associated with cancer risk, oncogenic pathways, and clinical outcomes》,发表在Sci Adv . 2020 Nov,提出cancer-associated germline genomic patterns (CGGPs),的概念。
利用非负矩阵分解算法(NMF)将大约10,000名癌症病人的胚系基因组的碱基(ATCG)序列进行解析,发现了七种和癌症发生有正向或负向相关性的胚系DNA指纹(DNA fingerprint)
We obtained 430,772,708 germline substitutions from the whole-exome sequencing data of 9712 cancer patients in The Cancer Genome Atlas (TCGA) , representing 22 cancer types and 46,998,783 somatic substitutions from their paired tumor genomes. Meanwhile, whole-exome data of 16,670 noncancer individuals from three cohorts
这七种和癌症发生有正向或负向相关性的胚系DNA指纹(DNA fingerprint)可视化后如下所示:
胚系DNA指纹
文章内容很丰富, 有了7个DNA指纹就可以看它在不同癌症的分布情况,以及在不同癌症的临床意义。
我在《生信技能树》,《生信菜鸟团》,《单细胞天地》的大量推文教程里面共享的代码都是复制粘贴即可使用的, 有任何疑问欢迎留言讨论,也可以发邮件给我,详细描述你遇到的困难的前因后果给我,我的邮箱地址是 jmzeng1314@163.com
如果你确实觉得我的教程对你的科研课题有帮助,让你茅塞顿开,或者说你的课题大量使用我的技能,烦请日后在发表自己的成果的时候,加上一个简短的致谢,如下所示:
We thank Dr.Jianming Zeng(University of Macau), and all the members of his bioinformatics team, biotrainee, for generously sharing their experience and codes.
十年后我环游世界各地的高校以及科研院所(当然包括中国大陆)的时候,如果有这样的情谊,我会优先见你。