专栏首页数据分析1480一文读懂R中的探索性数据分析

一文读懂R中的探索性数据分析

还没关注?

快动动手指!

探索性数据分析(EDA)是数据项目的第一步。我们将创建一个代码模板来实现这一功能。 简介 EDA由单变量(1个变量)和双变量(2个变量)分析组成。

简介

EDA由单变量(1个变量)和双变量(2个变量)分析组成。在这篇文章中,我们将回顾一些我们在案例分析中使用的功能:

● 第1步:取得并了解数据; ● 第2步:分析分类变量; ● 第3步:分析数值变量; ● 第4步:同时分析数值和分类变量。

基本EDA中的一些关键点:

● 数据类型 ● 异常值 ● 缺失值 ● 数值和分类变量的分布(数字和图形的形式)

分析结果的类型

结果有两种类型:信息型或操作型。

● 信息型:例如绘图或任何长变量概要,我们无法从中过滤数据,但它会立即为我们提供大量信息。大多数用于EDA阶段。 ● 操作型:这类结果可直接用于数据工作流(例如,选择缺失比例低于20%的变量)。最常用于数据准备阶段。

准备开始

如果您没有这些扩展包,请删除‘#’来导入:

tl; dr(代码)

使用以下函数一键运行本文中的所有函数:

替换data为你的数据,然后就可以啦!

创建示例数据:

使用heart_disease数据(来自funModeling包)。为了使本文容易理解,我们只选取四个变量。

第一步:了解数据

统计第一个例子中观测(行)和变量的数量,并使用head显示数据的前几行。

获取有关数据类型,零值,无穷数和缺失值的统计信息:

df_status会返回一个表格,因此很容易筛选出符合某些条件的变量,例如:

● 有至少80%的非空值(p_na < 20) ● 有少于50个唯一值(unique <= 50)

建议:

● 所有变量都是正确的数据类型吗? ● 有含有很多零或空值的变量吗? ● 有高基数变量吗?

第二步:分析分类变量

freq 函数自动统计数据集中所有因子或字符变量:

建议:

● 如果freq用于一个变量 -freq(data$variable),它会生成一个表格。这对于处理高基数变量(如邮政编码)非常有用。

● 将图表以jpeg格式保存到当前目录中:freq(data, path_out = ".")

● 分类变量的所有类别都有意义吗? ● 有很多缺失值吗? ● 经常检查绝对值和相对值。

第三步:分析数值变量

我们将看到:plot_num和profiling_num两个函数,它们都自动统计数据集中所有数值/整数变量:

1. 绘制图表

将图表导出为jpeg格式:

建议:

● 试着找出极度偏态分布的变量。 ● 作图检查任何有异常值的变量。

2. 定量分析

profiling_num 自动统计所有数值型/整型变量:

建议:

● 尝试根据其分布描述每个变量(对报告分析结果也很有用)。 ● 注意标准差很大的变量。 ● 选择您最熟悉的统计指标:data_prof %>% select(variable, variation_coef, range_98):variation_coef得到较大值可能提示异常值。range_98显示绝大部分数值的范围。

第四步:同时分析数值和分类变量

使用Hmisc包的describe。

这对于快速了解所有变量非常有用。但是当我们想要使用统计结果来改变我们的数据工作流时,这个函数不如freq和profiling_num好用。

建议:

● 检查最小值和最大值(异常值)

● 检查分布(与之前相同)

本文分享自微信公众号 - 数据分析1480(lsxxx2011)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-01-03

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 推荐收藏 | 统计学常用的数据分析方法大总结!

    描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析和离中趋势分...

    1480
  • 【干货!】统计学最常用的「数据分析方法」清单(下)

    根据已掌握的一批分类明确的样品建立判别函数,使产生错判的事例最少,进而对给定的一个新样品,判断它来自哪个总体。

    1480
  • 手把手教你用几行Python和消费数据做客户细分

    细分客户群是向客户提供个性化体验的关键。它可以提供关于客户行为、习惯与偏好的相关信息,帮助企业提供量身定制的营销活动从而改善客户体验。在业界人们往往把他吹嘘成提...

    1480
  • VBA程序的变量和常量

    大家好,在本节就主要介绍变量和常量,主要掌握声明变量和变量赋值,变量的作用域和存活期需要理解。

    无言之月
  • 机器学习实战 | 数据探索(变量变换、生成)

    1.1、什么是变量变换? 在数据建模中,变换是指通过函数替换变量。 例如,通过平方/立方根或对数x替换变量x是一个变换。 换句话说,变换是一个改变变量与其他变量...

    用户1332428
  • Powershell中的变量

    在我们的迷你系列“Variables in Shells”中,了解如何在PowerShell中处理局部变量。

    QRosie
  • C - 基础总结

    xx_Cc
  • 【临床研究】一个你无法逃避的问题:多元回归分析中的变量筛选

    临床模型研究,说到底是做一个模型,那么模型应该如何纳入自变量,纳入哪些自变量,这都是至关重要的问题。线性回归,逻辑回归和Cox比例风险回归模型是被广泛使用的多元...

    用户6317549
  • 数据管理—reshape2包

    我就在这里等你关注,不离不弃 ——A·May R-50T-50 ? 「序 言 」 不知不觉,已经写了半百的R语言了,感觉等数据准备这个大阶段结束,有必要将数据理...

    企鹅号小编
  • PHP变量

    引用赋值是用不同的名称对同一个变量的内容进行多次访问,当改变其中一个变量值时,其他的变量值也会随之发生变化:

    白胡杨同学

扫码关注云+社区

领取腾讯云代金券