首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

自动探索性数据分析在临床研究中的应用

前言

临床研究数据通常存储在结构复杂的数据库中,研究人员在临床研究中,面对庞大信息资源系统中的海量数据,往往感到无从下手,或者直接把数据匹配进各种模型,却发现效果不尽如人意。此时采用探索性数据分析,可以让临床研究人员逐步熟悉并探索手中待处理数据集,规划该采取何种预处理,使用何种算法,以及相应算法参数的大致取值范围等,是进行临床研究数据建模分析之前相当关键的步骤。在探索性数据分析的过程中,能探索到越多的数据特性,建模过程就越高效。

什么是探索性数据分析

探索性数据分析(Exploratory Data Analysis, EDA)在上世纪六十年代被提出,其方法由美国著名统计学家约翰·图基(John Tukey)命名,是指对已有的原始数据在尽量少的先验假定下进行探索,从实际数据中去探索其内在的数据规律性,通过数字化统计指标及可视化图形两种方式相结合来展开数据探索性分析。数字化统计指标一般包括变量的详细情况(变量的个数、每个变量的最值均值等)、分布情况(偏度和峰度)、缺失值(哪些变量缺失、缺失了多少)、相关性(相关系数)等,结合曲线图,热图,频率分布,图形,相关矩阵等可视化图形,探索数据的结构和规律,充分挖掘数据中隐藏的价值。

在每个自动探索性数据分析工作流程中,最后一步是向分析者报告或提供见解。特别是当临床研究工作者对这些数据中的信息没有足够的经验,不知道该用何种传统统计方法进行分析时,通过完成探索性数据分析,将获得许多探索性数据特性及建模建议。正如俗语所说,一图胜千言

探索性数据分析的步骤

在临床研究中,数据挖掘流程一般包括业务了解、数据理解、数据准备、建模、评估、部署等工作阶段。自动化的EDA工具旨在使数据理解阶段尽可能地简化及提速,也可使用R,Python或任何其他数据分析,探索和可视化的编程语言来执行。探索性数据分析通常包含以下六个步骤:

区分/识别属性;

单变量数据分析以表征数据集中的数据;

通过执行双变量和多变量分析来检测属性之间的相互作用;

检测并最小化缺失和异常值的影响;

发现异常值(进一步分析或错误);

特征工程,其中将特征转换或组合以生成新特征。

通过上述流程不仅可以帮助识别隐藏的特征和属性之间的相关性,还可以帮助根据数据及其假设提出假设验证

自动EDA工具在临床研究中的应用

以下以分析印第安人糖尿病数据集为例,将自动EDA工具在临床数据研究中加以应用。该数据集最初来自国家糖尿病/消化/肾脏疾病研究所,目标是基于数据集中包含的某些诊断测量来预测患者是否患有糖尿病。数据集的内容是该人群的医疗记录,以及过去5年内是否有糖尿病的结局数据。

首先生成描述性统计信息表,该统计信息概述了数据集分布的基本信息。

之后,对于数据的分布情况、集中趋势、离散度和形状等特性,生成以下几类图表,从而初步了解变量信息:

箱线图

通过四分位数以图形方式描绘数据分散情况。该框从数据的Q1四分位数扩展到Q3四分位数,中间有一条线(Q2)。直线从框的边缘延伸以显示数据范围。离群点是线段末端的那些点。箱线图显示了数据的位置和扩散程度,并提供了有关对称性和离群值的信息。

箱线图

散点图

数据点在直角坐标系平面上的分布图,表示因变量随自变量而变化的大致趋势,据此也可以选择合适的函数对数据点进行拟合。远离点群的点可以称为离群值。

散点图

散点矩阵图

对于多维数据的两两关系,散点图矩阵是散点图的高维扩展,它从一定程度上克服了在平面上展示高维数据的困难,在展示多维数据的两两关系时有着不可替代的作用。

散点矩阵图

直方图

一种易理解的快速评估数据集概率分布的好工具。EDA工具提供了许多不同的选项来构建和绘制直方图。

直方图

小提琴图

结合了箱形图和密度图的特征,用来展示多组数据的分布形态以及概率密度。小提琴图含义类似箱形图,但是在密度层面展示更好。特别适用于在数据量非常大,不方便逐一展示的情况。

小提琴图

相关系数矩阵热力图

显示定量变量所有组合上的相关性矩阵分布。渐变色标用于表示定量变量的值。两个随机变量之间的相关性是一个从-1到0到+1的数字,分别表示强逆相关,无关系和强相关。如果两个因素之一代表时间,则可以使用该图轻松查看变量的演变。

相关系数矩阵热力图

森林图

以统计指标和统计分析方法为基础,用数值运算结果绘制出的图型。它在平面直角坐标系中,以一条垂直线(横坐标刻度为1或0)为中心,用平行于横轴的多条线段描述了每个被纳入研究的效应量和可信区间(confidence interval,CI)。它非常简单和直观地描述了统计分析的统计结果,是多因素分析和meta分析中最常用的结果表达形式。

森林图

ROC曲线

ROC曲线主要是用于X对Y的预测准确率情况,在医学上也用来判断某种因素对于某种疾病的诊断是否有诊断价值。横坐标X轴为特异性,也称为假阳性率(误报率),X轴越接近零准确率越高;纵坐标Y轴称为敏感度,也称为真阳性率(敏感度),Y轴越大代表准确率越好。根据曲线位置,把整个图划分成了两部分,曲线下方部分的面积被称为AUC(Area Under Curve),用来表示预测准确性,AUC值越高,也就是曲线下方面积越大,说明预测准确率越高。图中曲线越接近左上角(X越小,Y越大),预测准确率越高。

ROC曲线

混淆矩阵

为了解 AUC,可引入另外一个概念——混淆矩阵(Confusion Matrix)。混淆矩阵是一个二维方阵,它主要用于评估二分类问题(例如:预测患或未患心脏病、肿瘤的良恶性)的好坏。

混淆矩阵

主对角线上为真阳性和真阴性记录组做出了正确分类的概率,而反对角线上为对假阳性和假阴性记录组发生了误判的概率。

表格1. 二分类问题混淆矩阵

结语

由于探索性数据分析既与特征工程紧密相连,又基于视觉见解,因此自动EDA工具技术同时使用数据集的统计属性和用户交互操作来生成相关图表,可以对临床数据统计分析结果进行可视化展示和交互,帮助临床数据分析人员找到科研灵感,同时通过将基于机器学习的算法和可视化技术,在科研系统中帮助解决处理高维数据和多变量依存关系的问题,使科研工作可以更快,更高效地进行。

参考书目

Wirth (2000) R. Wirth. Crisp-dm: Towards a standard process model for data mining. In Proceedings of the Fourth International Conference on the Practical Application of Knowledge Discovery and Data Mining, pages 29–39, 2000. doi: 10.1.1.198.5133.

Tufféry, S. Data Mining and Statistics for Decision Making; Wiley: Chichester, UK, 2011; Volume 2. [Google Scholar]

Wickham (2016) H. Wickham. ggplot2: Elegant Graphics for Data Analysis. Springer-Verlag New York, 2016. ISBN 978-3-319-24277-4. doi: 10.1007/978-0-387-98141-3. URL http://ggplot2.org

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20200826A04WA000?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券