?关注Hanson临床科研,
让医学生物科研变得更容易!
大家好,今天豆沙包给大家分享一篇3分+的学习笔记。这篇学习笔记中应用新开发的一种机器学习的方法,得到可作为诊断signatures的11对基因对,从而实现对肝细胞癌的早期诊断。
题目:机器学习方法对肝细胞癌的早期诊断
参考文献:https://doi.org/10.3389/fbioe.2020.00254
肝癌是恶性肿瘤患者死亡的第四大原因。肝细胞癌(HCC)约占肝癌病例的90%,通常在晚期诊断,预后差。因此,早期HCC诊断对改善患者预后和生存具有重要意义。
REOs对同一肿瘤组织内的实验批次效应和平台差异、部分RNA降解和不确定取样位点具有很强的鲁棒性。在先前研究中,利用样本内REOs获得的19对基因对可改善早期肝癌诊断。但REOs识别HCC的规则简单,基因之间的某些内在关系没有被揭示,且HCC诊断的准确度仍有待提高,因此开发了一种基于机器学习的方法来诊断HCC的样本内REO。
从 GEO 和 TCGA 数据库中获得基因表达谱数据集。
首先,根据样本的类型和抽样方法从HCC(D1)活检样本、HCC(D2)手术样本、CwoHC(D3)活检样本和 CwoHC(D4)手术样本中提取数据集。为了客观评价这个模型,将以上每种类型分成两个数据子集:训练(80%)和测试数据集(20%)。
总共识别了在1091个HCC样本中有至少95%的样本具有相同的REO的13,586,043个稳定基因对。同样还确定了在242个CwoHCC样本中至少有95%的样本具有相同的REO14,475,509个稳定的基因对。
图1. 开发和验证HCC诊断标志物的流程图
在训练数据中获得了HCC样本和CwoHCC样本之间的857个reversal基因对。随后获得训练数据集和验证数据集之间的共同基因及其相应的基因表达谱。基于基因表达谱和reversal基因对,使用 1、0 、-1 分别表示Ea>Eb、Ea<Eb 和其他情况(Ea或Eb不存在)生成了一个新的表达谱。(基因a的表达水平高于基因b,则两个基因的REOs以Ea>Eb的形式表达)
根据新的谱,通过将mRMR与SVM结合使用,选出了表1中显示的11对基因对,并将其作为诊断signature。11对基因对可以在HCC识别的训练数据上产生100%的准确度。
表1.肝癌早期诊断的标志物——11对基因对
采用增量特征选择(IFS)方法从857mRMR基因对中选择最优基因对作为诊断signature。使用mRMR优化的前857个特征进行预测时,在五倍交叉验证中,总体成功率达到100%的IFS峰值。实线表示ROC曲线。虚线表示随机猜测的策略。
图2.显示识别HCC的IFS程序
2、独立数据集诊断标志物的检查
使用活检和手术切除样本来估计11对基因对的性能。
基于11对基因对的模型可以正确地识别用RNA-seq测量的HCC(NwHCC)患者的371个HCC和50个正常组织,其中没有包含RNA-seq 信息。这些结果表明,11对基因对特征可以区分肝癌和非癌性肝组织,并且该特征对临床病理变化具有较强的鲁棒性。
表2.验证数据集中标志物的性能
图3对于活检样本,GSE54236中肝癌(CwHCC)患者的 80 例肝硬化组织和 2 个数据集(GSE64041和GSE121248)的97例NwHCC活检组织均为肝硬化组织。
图3.来自活检和手术切除的HCC和CwoHCC样本的公共数据库的验证数据的接收器操作特性曲线(AUC)下的区域
将此方法与现有的基于19对基因对的模型进行了比较,发现19对基因对可以被看作是区分肝癌和邻近的非癌组织(肝硬化或正常组织)与CwoHCC的诊断特征。它们的模型可以产生 99.69%的精确度,低于11对基因对模型。
此外,HCC样品的敏感度提高到79.8%(19对基因对:79.3%),NwHCC样品对HCC的准确度提高到100%(19对基因对:96.6%)。
由此可以看出,在通过手术切除标本鉴定来自Cwohc的HCC和邻近非癌组织(CwoHCC和NwHCC)时,基于11对基因对的模型比基于19对基因对的模型表现出更好的性能,表明基于11对基因对的模型在为早期HCC诊断提供可靠的结果方面是相当有前途的。
表3.11对基因对与现有方法在独立数据集上的比较
小结
这篇学习笔记在收集数据之后便将其分为训练集和测试集,并从训练数据中获得了HCC样本和CwoHCC样本之间的857个reversal基因对。随后获得训练数据集和验证数据集之间的共同基因及其相应的基因表达谱。基于基因表达谱和reversal基因对,使用 1、0和-1分别表示Ea>Eb、Ea<Eb和其他情况生成了一个新的表达谱。根据新的谱,通过将mRMR与SVM结合使用,选出了显示的11对基因对,并将其作为诊断标记。11对基因对可以在HCC识别的训练数据上产生100%的准确度。可见使用样本内REO和SVM提出的基于11对基因对的模型在训练数据集和独立数据集上都是强大的。这18个基因组成的11对基因对形成一组诊断特征,可用于区分肝癌和邻近的非癌组织与CwHCC个体的早期HCC诊断。
利用KEGG通路和GO terms上的Metascape2对18个基因进行功能富集分析。分析表明,11对基因对的基因可能在HCC的发展和进展中起着至关重要的作用。在目前的研究中,发现的11对基因可以用于准确诊断肝脏中发现的肿瘤。此外,将尝试为所提出的“11对基因对”模型建立一个用户友好的Web 服务器。