2433个乳腺癌患者的173个基因的突变全景图

发表于2016年的NC,The somatic mutation profiles of 2,433 breast cancers refine their genomic and transcriptomic landscapes 可以说后续做乳腺癌人群队列突变研究的都需要引用这篇文章的数据结果,里面涉及到的分析要点也比较多,都是比较容易重现的。

这2433个病人,来自于 METABRIC 计划,已经有

  • copy number aberration (CNA)
  • gene expression
  • long-term clinical follow-up

的信息,所以这个时候再加入173个基因的捕获测序,可以更加全面的了解乳腺癌患者。

乳腺癌具有患者间与同一患者肿瘤内的基因组变异性。以患者间的异源性分类早期乳腺癌生物亚型,现在临床对乳腺癌患者通常是观察 morphological assessment (size, grade, lymph node status) ,或者检查,ER,PR,HER2 等marker,目前的亚型主要是以下:

  • 管腔A型(luminal A)
  • 管腔B型(luminal B)
  • 类正常乳腺型(normal breast-like)
  • HER-2型
  • 基底细胞样(basal-like)乳腺癌。

Pereiral等通过测序2433例乳腺癌样本的173个基因,发现40个肿瘤抑制基因和癌基因的驱动基因(多重驱动),这些基因参与的生物学过程包括:

  • AKT信号
  • 细胞周期调节
  • 染色质功能
  • DNA损伤与凋亡
  • MAPK信号
  • 组织架构
  • 转录调节
  • 泛素化

并且发现ER+乳腺癌患者PI3K突变与不同的生存相关。

实验前挑选基因

挑选的173个基因,来自于前面的TCGA计划,下面简单列出几个基因:

#Supplementary Dataset 1 - Details of genes & mutations in this study
#Genes names, positions and annotation transcripts, numbers of various classs of mutations, numbers of CNAs, numbers of samples with double mutations, whether gene was included because of homozygous deletions

完整表格见: Supplementary Data 1

somatic突变结果

大部分的分析资料都是在: Supplementary Information

纯粹分析结果在 : Somatic mutation calls and ASCAT segment files for 2,433 primary tumours are available at http://github.com/cclab-brca

但是原始数据是 EGAS00001001753 需要申请才能下载。

突变仍然是以 PIK3CA (coding mutations in 40.1% of the samples) and TP53 (35.4%) 为主。

其次就只有5个基因突变超过10%的样本了,分别是:MUC16 (16.8%); AHNAK2 (16.2%); SYNE1(12.0%); KMT2C (also known as MLL3; 11.4%) and GATA3 (11.1%) ,但是MUC16 本身的背景噪音太大,不适合二代测序这个技术。

病理性的germline突变情况

还是那些出名的基因作者就拿出来说了说:

  • BRCA1 and BRCA2 were identified in 1.36% and 1.64% of the cohort, respectively
  • 2.22% of tumours harboured pathogenic CHEK2germline mutations.
  • TP53 pathogenic germline mutations were found in 0.82% of the tumours.

突变过滤策略

值得注意的是: All reads with a mapping quality < 70 were removed prior to calling.

其它策略包括:

  • Based on our analysis of replicates, SNVs with MuTect quality scores <6.95 were removed.
  • We removed those variants that overlapped with repetitive regions
  • Fisher’s exact test was used to identify variants exhibiting read direction bias
  • SNVs present at VAFs smaller than 0.1 or at loci covered by fewer than 10 reads were removed, unless they were also present and confirmed somatic in the Catalogue of Somatic Mutations in Cancer (COSMIC).
  • 删除那些在千人基因组计划的任意人群(AMR, ASN, AFR) 里面频率大于1%的变异位点。
  • We used the normal samples in our data set (normal pool) to control for both sequencing noise and germline variants, and removed any SNV observed in the normal pool (at a VAF of at least 0.1).

这些策略理论上是需要引入到自己的研究里面的。

找driver突变

使用的是: Vogelstein et al.16 的方法 , 定位了 40个基因 , We used a ratiometric method to identify 40 Mut-driver genes

主要是区分recurrent和inactivating的突变

其中recurrent突变包括

  • nonsynonymous SNVs
  • in-frame indels
  • oncogene score (ONC)

而inactivating突变包括:

  • frameshift indels
  • nonsense SNVs
  • splice site mutations
  • tumour suppressor gene score (TSG)

The mutation patterns of some Mut-driver genes differed by ER status.

值得注意的是:

  • Overall, 22.6% of tumours harboured a coding mutation in one of the seven Mut-driver genes involved in chromatin function (KMT2C, ARID1A, NCOR1, CTCF, KDM6A, PRBM1 and TBL1XR1).
  • Of the 40 genes, 8 were independently identified as Mut-driver tumour suppressor genes using the ratiometric method described above: FOXO3, CTNNA1, FOXP1, MEN1, CHEK2 in ER+ tumours; CDKN2A, KDM6A and MLLT4 in both ER+ and ER− tumours.

探索不同突变直接的关系,互斥或者共发生

首先是somatic的SNVs的 关系,如下图:

![](http://www.bio-info-trainee.com/wp-content/uploads/2018/07/co-mutation and mutual exclusivity-SNVs.png)

只要有了这些突变信息,比如maf格式的somatic mutations就可以用现成的R包,比如maftools来做上图。

然后是somatic的CNVs的关系,如下图

![](http://www.bio-info-trainee.com/wp-content/uploads/2018/07/co-mutation and mutual exclusivity-CNVs.png)

这个要稍微复杂一点,把拷贝数变异和点突变信息来互相联系。

根据 IntClusts 分类来看突变情况

前面的分析,都是根据ER表达情况来对两千多个乳腺癌患者进行分类,现在是通过作者前面发表的 IntClusts 分类来检查突变情况,下面的这个突变全景图是整个文章的精髓:

根据 mutant-allele tumour heterogeneity (MATH) 来探索肿瘤异质性

结论很清晰:

  • ER+ tumours generally had lower MATH scores (median=0.29, IQR=0.18–0.44) than ER− tumours (median=0.41, IQR=0.25–0.56).
  • Higher MATH scores were associated with worse outcome in ER+ cancers

这个分析也是被 maftools 包装起来了,很容易在自己的数据里面复现这个分析点。

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2018-11-03

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏生信宝典

2018国内基因编辑技术走势

3月30~31日,由北京大学天然药物及仿生药物国家重点实验室主办的2018基因编辑学术研讨会将在京举行。届时众多一线科研工作者将聚集于此共襄学术盛宴。 201...

59040
来自专栏镁客网

Broad研究所公布两大研究成果,共同提高CRISPR编辑的精准度 | 黑科技

16800
来自专栏生信小驿站

Potent immunogenicity in BRCA1-mutated patients with high-grade serous ovarian carcinoma摘要介绍

高级别浆液性卵巢癌(HGSOCs)是免疫检查点抑制剂(ICIs)效果不理想的肿瘤之一。因此必须开发可行的生物标志物,用于鉴定响应候选者并指导HGSOC患者的精确...

12710
来自专栏生信宝典

生信老司机以中心法则为主线讲解组学技术的应用和生信分析心得 - 限时免费

海哥,中国科学院遗传与发育生物学研究所,生物信息学博士。在生信宝典出品过多部“傻瓜式”教程。

10230
来自专栏生信技能树

【直播】我的基因组57:最简陋的祖源分析

这……可能是最简陋的祖源分析了吧,没有之一。 ? 前面我们学习了千人基因组的人群分布情况,也简单的看了看我自己的基因型在那2504个人的距离情况,但是只能定位到...

69090
来自专栏生信技能树

CRISPR相关公司的股价大跌背后的故事

被称为基因魔剪的CRISPR-Cas9(Clustered Regularly Interspaced Short Palindromic Repeats)技...

20010
来自专栏大数据文摘

新型算法可确定基因组突变位点

21180
来自专栏生信技能树

【直播我的基因组66:大多数性状往往是多个基因控制的

前面我们说到了那些简单的由单个基因决定的性状,这东西不需要预测,其中的生物学机制已经研究的非常透彻,只要拿到你的基因信息,很容易推断你的性状,比如人的乙醇脱氢酶...

353120
来自专栏杨熹的专栏

智能鸟

Markus Fischer: A robot that flies like a bird 我们仰望鸟儿, 并尝试去建一个模型 这个模型必须超轻, 并且具备卓...

42260
来自专栏思影科技

面向工作记忆过程的双向额顶振荡系统

最近,来自加利福利亚大学Helen Wills神经科学研究所的学者通过研究表明在工作记忆过程中,前额叶皮质区与大脑后皮质区之间具有一套完整的平行双向神经振荡系统...

29850

扫码关注云+社区

领取腾讯云代金券