Unsupervised clustering reveals new prostate cancer subtypes摘要介绍方法

摘要

  • 背景:前列腺癌是男性中第二常见的癌症。发展基于基因的分类方法是迫切的要求。我们的目标是建立基因分型。
  • 方法:我们使用了四个前列腺癌数据集。癌症基因组图谱(TCGA)RNA-Seq数据用于训练分类器。基于分类器的三个亚型被测试是否具有临床数据存在显着差异。其他三组按分类器分类并验证。
  • 结果:分类器有183个基因。前列腺癌亚型1(PCS1)的特征是高 GSTP1的表达,Gleason评分较低(P <0.001)。 PCS2有更高的Gleason评分,更多的淋巴淋巴结侵袭(P = 0.005)和病理T期(pT期)(P <0.001)。三GEO(基因表达Omnibus)验证数据集具有类似的结果。我们甚至观察到复发时间的重要性不同亚组之(GSE70768中P = 0.005)。
  • 结论:我们基于RNA-Seq数据建立了PCS分类器(183个基因),并鉴定了3个的前列腺癌亚型。该亚型与可能具有临床应用潜力的临床数据有关。 关键词:前列腺癌;癌症基因组图谱(TCGA);Gleason得分;前列腺癌亚型分类器(PCS分类器)

介绍

  • 尽管事实上的出现和新的筛查技术使前列腺癌更容易被诊断出来,但是随着发病率不断上升,它一直是美国男性癌症相关死亡的第二个原因(1-3)。超过95%的前列腺癌表现为腺癌。因此,探索前列腺的发展和预后分层癌症是非常重要的,特别是分子分类。
  • 基于前列腺癌的特征,格里森评分是一种有效的评估前列腺癌的方法。传统上,格里森通过将数字加在一起来计算得分,两种最普遍的分化模式。但是,经过修订的评分系统(表S1)已在2016年WHO采用。biochemical recurrence (BCR)和高等级被观察到与预后相关。除了临床指标,一些蛋白质编码基因,如c-myc,Bcl-2和p53也与前列腺癌的预后有关(7,8)。
  • 癌症基因组图谱(TCGA)是一个大型项目。它包含基因组特征 数据,高水平测序数据和相应的临床数据,包括所有常见肿瘤和几种罕见肿瘤的数据。该TCGA研究网络进行的综合分析在某些肿瘤例如胶质瘤和卵巢癌中,提供了一种对它们的诊断和治疗策略的新见解。前列腺腺癌的大型分析有由TCGA研究发表,揭示分子异质性和潜在的原发性前列腺癌的分子缺陷(12)。
  • 作为计算机科学的一个子领域,机器学习在生物信息学有着处理大数据的优势。到目前为止,它已经在很多案例取得了成功,为发现许多有价值的成果做出了巨大贡献(13,14)。在目前的研究中,我们应用了之前的研究方法对TCGA数据库进行分析,并找出一些有趣的结果,且可以成功的在其他三个数据集验证。

* 文章的流程图 *

方法

  • 数据准备 我们使用了四种不同系列的前列腺癌数据,本研究中有1258名独立患者(表S2)。TCGA RNAseqV2数据集由497个前列腺组成腺癌样本作为训练数据集。验证数据集包括三个前列腺癌系列,来自GEO(Gene Expression Omnibus):Erho的系列(GSE46691)有545名患者(15名),Lamb's(GSE70768)有125名患者(16名)和罗氏组(GSE70769)91名患者(16名)。
  • 训练数据集(TCGA RNAseqV2和Clinical数据) 获得前列腺腺癌3级数据来自TCGA(https://tcga-data.nci.nih.gov/) TCGA/)。 该数据集包括497名患有前列腺的个体 腺癌。 每个样品的RNA序列是基于Illumina HiSeq 2000 RNA测序进行分析版本2分析(https://wiki.nci.nih.gov/display/TCGA/RNA测序+版本+ 2)。来自TCGA的肿瘤样品是不仅在不同的机构和不同的时代,而且分批处理而不是同时处理会导致系统性的误导性分析 批次效应和趋势效应等噪音。 TCGABatchEffects网站(http://bioinformatics.mdanderson。org / tcgambatch /)用于评估和纠正批次对前列腺腺癌数据的影响。我们下载了经过处理的批次效应校正数据。此外,临床数据通过下载TCGAAssembler。
  • 验证数据集(GEO系列) 表达谱以及GSE46691的临床数据,GSE70768和GSE70769通过R下载GEOquery包。对于每个数据集,表达式从探针组到基因和中位数注释了谱以所有样本为中心。我们填写了目标基因表达发生缺失值时为零。对于临床数据,我们集中在Gleason评分,T分期和预后 信息。
  • 前列腺癌亚型(PCS)分类器和亚型的识别。 我们构建了一个PCS分类器来识别三种子类型利用算法研究TCGA的RNA-Seq表达谱
  • 层次聚类 层次聚类是评估聚类的一种方法。使用R包“ConsensusClusterPlus”, 我们进行了具有凝聚力的层次聚类平均连锁并将这些患者分类为 通过10426最多变异基因的3-12个组。最多变异基因根据标准定义 中位数绝对偏差> 0.5。我们的中位数居中在所有计算和设置之前的所有表达式数组共1000次迭代,0.98次采样率聚类(19)。
  • 计算gap statistic gap statistic是确定最优分组的标准方法,数据集中的簇数通过比较数据集的变化观察到的和预期的簇内分散(20)。为了确定理想的聚类数,差距统计是对于所选择的顶部变量基因,从k = 1到6计算R群的“集群”(21)。
  • 选择患者和机器学习的基因 对于患者样本,我们计算了SilhouetteWildth识别每个中最具代表性的患者集群(22)。具有正轮廓宽度的患者是为以下分类器选择。同样,两个过滤应用步骤选择最具代表性的预测基因。首先,SAM(意义分析)微阵列(microarrays)用于显着鉴别差异 表达基因(FDR <0.01,假发现率)在一个子类型和其他R子包之间 “siggenes”(23)。其次,AUC(接收器下的区域)计算操作特性曲线曲线)估计一个基因分裂一个基因的预测能力其他人的子类型与R包“ROCR”(24)。只要FDR <0.01且AUC> 0.9的患者继续建立 PCS分类器。
  • 构建PAM分类器并识别子类型 随着过滤患者和选定的基因,一个强大的分类器是由“PAMR”的R包构建的(微阵列R包的预测分析)基于最近的缩小质心算法(25)。我们成立了一个10次​​交叉验证,1000次迭代选择质心收缩的最佳阈值。最后,我们选择了分类器提供错误率<2%且数量最少基因,使用内置的PAM分类器,我们分类所有TCGA前列腺腺癌患者分为三个亚型进行后续分析。首先,我们将临床数据与前列腺的三种亚型相匹配腺癌检查是否会有差异Gleason评分,T分期或预后。其次,按顺序为了探索分子异质性,我们选择了一些流行的生物标志物或突变检查他们的表达不同亚型的变异。
  • 分类器中基因的注释 为了解PCS基因的生物学意义,我们通过以下方法对基因进行注释。 基因本体论(GO)和京都基因百科全书和基因组(KEGG)途径分析 与生物学相关的基因本体注释
  • 通路与KEGG通路富集分析 使用Database for Annotation实现了分类器可视化和集成发现(DAVID,https://david.ncifcrf.gov/)在线工具。 P值<0.001和基因计数> 2被设定为GO的阈值,KEGG的阈值是P值<0.05,基因计数> 2。
  • 蛋白质 - 蛋白质相互作用(PPI)网络构建 我们将分类器映射到搜索工具中检索交互Genes数据库(String,http://string.embl.de/)并构建了一个PPI网络提供了预测蛋白质相互作用的信息。所需的最低交互分数设置为0.400。 我们用Cytoscape软件分析了PPI(http://www.cytoscape.org/)。
  • 验证三个GEO数据集 来自GEO数据集的GSE70769,GSE70768和GSE46691 被选为验证集。基于PCS分类器在2.2.4节中生成,我们对每个验证数据集进行了分类并分析了给定的亚组和临床数据的关系。一些临床信息在系列中不一致。例如,GSE70768给了主要和次要格里森得分,而GSE46691刚刚给出了格里森的总得分。关于以上问题,我们利用了大部分临床数据和在结果部分中提供了详细信息。
  • basal和luminal标记物在PCS亚型中的表达 为了确定PCS子类型是否对应luminal或basal肿瘤,我们分析了已知为管腔标记的基因(EZH2,AR,MKI67,NKX3-1,KLK2 / 3和ERG)或basal(ACTA2,GSTP1,IL6,KRT5和TP63)表达。 我们还进行了基因集富集分析(GSEA)提供PCS集群的一些生物学分析。
  • 统计分析 使用样本聚类和分类在上面提到的相应的R包R软件(3.3版本)。临床资料被视为离散变量(时间到事件)和分类变量(格里森评分,病理学T分期(pT期),转移,和预后终点)。我们利用卡方检验检测到它们之间的关系,fisher的精确测试分类变量。 Kaplan-Meier曲线用于描述时间事件数据和对数秩方法用来测试差异。它被认为是重要的当P值<0.05时,统计学上。我们申请了统计软件包SPSS v20(IBM)来管理临床数据。 R软件和Microsoft PowerPoint(v2016)是用于可视化结果。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能

深度学习与神经科学相遇(三)译

原文: https://zhuanlan.zhihu.com/p/23979871 深度学习与神经科学相遇(一)[译] 深度学习与神经科学相遇(二)[译] 上次...

2230
来自专栏阮一峰的网络日志

神奇的图像处理算法

几周前,我介绍了相似图片搜索。 这是利用数学算法,进行高难度图像处理的一个例子。事实上,图像处理的数学算法,已经发展到令人叹为观止的地步。 Scriptol列出...

4558
来自专栏量子位

传送门!ICML2017(国际机器学习大会)最佳论文(附下载)

允中 整理编译 量子位 报道 | 公众号 QbitAI ? 8月6日,第34届国际机器学习大会(ICML 2017)已在悉尼拉开帷幕。 其中最受关注的论文奖项已...

41114
来自专栏机器之心

资源 | Darkon:可更好理解深度学习模型的开源工具包

2855
来自专栏量子位

Kaggle获奖者自述比赛求生指南:我们如何“穿越”亚马逊热带雨林

作者:刘思聪 中山大学|计算机科学与技术研究生 来源自知乎专栏:AI带路党 量子位 已获授权编辑发布 大家好,我是思聪 · 格里尔斯,我将向您展示如何从世界上某...

6068
来自专栏机器之心

资源 | Picasso:开源的CNN可视化工具

选自Medium 机器之心编译 参与:侯韵楚、李泽南 神经网络在图像处理中应用广泛,但经常面临难以调整参数的问题。最近,来自 Merantix 的 Ryan H...

4278
来自专栏企鹅号快讯

胶囊 网络

引言 斯蒂文认为机器学习有时候像婴儿学习,特别是在物体识别上。比如婴儿首先学会识别边界和颜色,然后将这些信息用于识别形状和图形等更复杂的实体。比如在人脸识别上,...

2435
来自专栏数据结构与算法

18:鸡尾酒疗法

18:鸡尾酒疗法 总时间限制: 1000ms 内存限制: 65536kB描述 鸡尾酒疗法,原指“高效抗逆转录病毒治疗”(HAART),由美籍华裔科学家何大一于...

4025
来自专栏机器之心

教程 | 如何使用TensorFlow构建、训练和改进循环神经网络

选自SVDS 作者:Matthew Rubashkin、Matt Mollison 机器之心编译 参与:李泽南、吴攀 来自 Silicon Valley Dat...

3259
来自专栏新智元

【AI玩跳一跳终极奥义】首个端到端神经网络,看AI在玩游戏时注意什么

作者:Flood Sung 编辑:费欣欣 【新智元导读】不用传统外挂,训练纯深度学习AI来玩跳一跳,结果会如何?本文作者使用模仿学习,训练了一个端到端的神经网络...

4037

扫码关注云+社区

领取腾讯云代金券