首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

生信篇:运用ROC曲线筛选生物标志物的策略

ROC 曲线(Receiver Operating Characteristic Curve,受试者工作特征曲线)是对于可能或将会存在混淆的两种条件或自然状态,需要试验者、专业诊断学工作者以及预测工作者作出精细判别,或者准确决策的一种定量方法。ROC曲线已经在医学领域广泛应用于临床诊疗、人群筛检等研究。

运用ROC曲线筛选生物标志物的策略主要包括,OPLS-DA筛选差异代谢物,再用最小绝对收缩与选择算子算法(Least Absolute Shrinkage and Selection Operator,LASSO)和极端梯度上升算法(eXtreme Gradient Boosting,XGBoost)算法选择重要的代谢物,然后使用逻辑回归模型筛选最佳的代谢物组合,即候选的生物标志物。

图1 LASSO变量选择的计算结果。右侧虚线lambda对应的模型包含的代谢物就是LASSO一次计算所选择的变量。

图2 XGBoost变量选择的计算结果

图3 候选生物标志物的ROC曲线

图4 健康组和疾病组的代谢物含量比较(代谢物数据经log2标准化,均用mean ± sd表示,星号代表代谢物的含量差异显著)

图5 逻辑回归模型预测结果的散点图,虚线0.5是临界值,虚线下方的样品预测是健康组,虚线上方的样品预测属疾病组。

1.1.LASSO 选择变量

LASSO 是基于惩罚函数的变量选择方法。LASSO 基于惩罚函数在零点处导数的奇异性,将不重要的变量系数以较大概率压缩到零,同时对估计值较大的重要自变量给予较轻压缩,来保证参数估计的准确性。LASSO算法是一个有序、连续的过程,以牺牲无偏性换取较小的方差;该方法具有计算量小,速度快,参数估计连续性,适用于高维数据等优点,选择的模型具有较高的预测准确性。如果数据的维数大于样本量,还需要引入岭回归(Ridge regression)组成弹性网方法(Elastic net)。

1.2.XGBoost选择变量

XGBoost 属于梯度提升算法(Gradient Boosting,GB),其原理是把成百上千个分类准确率较低的树模型组合起来,成为一个准确率很高的模型。XGBoost是GB算法的高效实现,能够自动利用CPU的多线程进行并行计算,运算速度更高效,同时改进算法提高了精度。

1.3.逻辑回归模型筛选最佳代谢物组合

线性回归用于描述自变量和因变量之间的关系,但是因变量的取值范围很广,无法用于分类问题。逻辑回归是在线性回归的基础上,套用了 Sigmoid 函数,将因变量的值限定在 [0,1] 区间内,可用于二分类和多分类问题,常用于数据挖掘、疾病自动诊断、经济预测等领域。

逻辑回归模型的效果使用 ROC 曲线评估。ROC曲线的坐标轴范围都是 [0, 1],曲线与坐标轴之间的面积叫做曲线下面积(Area Under Curve,AUC)。AUC取值范围是 [0.5, 1],在0.5 ~ 0.7范围内时有较低准确性,在0.7 ~ 0.9范围内时有一定的准确性,在0.9以上时有较高准确性。

1.4. 输入数据

代谢组数据:列是样品名,行是代谢物。

样品信息表:样品的临床信息,包括样品名、类别(健康组或疾病组)、性别、年龄等。

参考文献

[1].Jerome Friedman, Trevor Hastie, Robert Tibshirani (2010). Regularization Paths for Generalized Linear Models via Coordinate Descent. Journal of Statistical Software, 33(1), 1-22.

[2].Tianqi Chen and Carlos Guestrin. XGBoost: A Scalable Tree Boosting System. In 22nd SIGKDD Conference on Knowledge Discovery and Data Mining, 2016

[3].Xavier Robin, Natacha Turck, Alexandre Hainard, Natalia Tiberti, Frédérique Lisacek, Jean-Charles Sanchez and Markus Müller (2011). pROC: an open-source package for R and S+ to analyze and compare ROC curves. BMC Bioinformatics, 12, p. 77.

[4].Xu, R. et al. Circulating tumour DNA methylation markers for diagnosis and prognosis of hepatocellular carcinoma. Nat Mater, (2017).

(让世界感知迈维的脚步,让代谢聆听迈维的声音)

你可能错过的精彩

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171212G07SZ700?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券