【连载】R语言18讲(四)

前面讲到了怎么导入数据,获取数据,按照数据挖掘的流程,在我们导入数据之后接下来的工作便是对数据进行初步的探索,探索的工作主要包括两大块,第一是数据质量分析,第二是数据特征分析. 数据质量分析就是看看数据有没有缺失值,有没有异常值,数据是否具有一致性等,而数据特征分析则包括数据的分布,数据进行对比,数据简单的统计,以及数据周期性和相关性的检查.这部分工作对于我们后面数据建模非常重要,也是我们发现问题,解决问题的重要一步,那么接下来,会用两节来讲讲数据的初步探索,当然是用R语言实现的,这节主要讲数据质量分析.

1.探索数据的构成.

  • 整体查看数据集的情况:这里以R自带数据集mtcars为例.

这仅是查看数据的结构信息,当我们想整体看看数据的情况时,R也可以提供可视化的形式,以表格呈现给我们,当然当数据量非常大时,我们也可以选择查看部分行的数据.代码如下:

记住以上的几个函数,我们就可以初步的观察数据的整体结构了,我们便可以明了,拿到的是一份怎样的数据,大致的样子是怎么样的了.接下来我们便需要仔细的观察每一列,也就是每一个字段的情况.

  • 简单的选择性查看数据部分情况

这部分内容主要包括怎么使用下标的方式简单的查看符合条件的数据集,部分代码及功能如图;

以上几个函数都是做简单的查询,对于我们前期探索以及后期建模也非常重要,在建模时可能需要用到数据集中的某一变量,或者某一符合条件的部分数据,使用上述的函数就可以.

  • 在我们编程时经常会报错,有一部分原因就是不清楚数据的类型,在前面我们讲到了数据的分类,现在我们举出几个查看数据类型的函数:

至此数据的大致情况构成我们便可以清楚的知道了.

2.缺失值,异常值查询

其中complete.cases返回的是每一行的情况,而is.na则返回每一个元素的情况.

summary则返回了每个变量的最小值,下分位数,中位数,均值,上分位数,最大值.

3.一致性分析

对于一致性分析,则需要分析者 的经验和专业知识了,即所谓数据明显不符合逻辑和要求的,性别变量填成了数值,身高变量填成了字母.等等


未完待续,

PPV原创文章,严禁转载. (文:@白加黑治感冒)

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2016-04-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏软件开发 -- 分享 互助 成长

结构化分析和方法

结构化分析方法(SA)是一种面向数据流的需求分析方法,适用于分析大型数据处理系统,是一种简单、实用的方法。 基本思想是自顶向下逐层分解。分析结果有一套分层的数据...

2076
来自专栏wblearn

UML学习归纳整理

之前在学校比较系统的学习过统一建模语言UML,但长时间没使用遗忘了许多,最近因工作需要,所以对UML重新学习和梳理一下。UML可帮助我们做软件需求分析和软件设计...

971
来自专栏大数据挖掘DT机器学习

【推荐】分析的前提—数据质量

数据质量(Data Quality)是数据分析结论有效性和准确性的基础也是最重要的前提和保障。数据质量保证(Data Quality Assurance...

3115
来自专栏生信小驿站

Python Vs R:数据科学家的永恒问题pythonR结论

Python有一些使用案例,R也是如此。使用它们的场景各不相同。 更常见的是环境以及客户或雇主的需求决定了Python和R之间的选择。许多事情在Python中都...

912
来自专栏机器学习算法与Python学习

254页教程《Writing Code for NLP Research》

EMNLP2018 254 页的《为NLP研究写出好代码》(Writing Code for NLP Research)的教程会给出答案。

1262
来自专栏哲学驱动设计

重构实践:体验interface的威力(一)

背景     GIX4是一个建筑行业的指标计算软件,用于数据统计、分析。导入的大量数据,大部分呈现逻辑上的树状结构(关于它的重构,见:《重构一个繁琐的数据结构》...

1977
来自专栏量子位

有个AI陪你一起写代码,是种怎样的体验?| 附ICLR论文

后来,程序猿要写的代码越来越多,世界上便有了各种各样的API,来减少大家的工作量。有些功能,可以让API来帮我们实现。

1002
来自专栏AI研习社

谷歌云工程师亲自示范:新发布的 Video Intelligence API 究竟怎么用

AI研习社按:3 月初,谷歌在 Google Cloud Next 2017 大会上对外公布了 Cloud Machine Learning API 更新。此次...

3347
来自专栏重庆的技术分享区

大数据与机器学习融合

我最近与柏林工业大学的学生进行了两次非常有趣的讨论,我了解了机器学习社区和大数据社区之间的鸿沟有多大。

4064
来自专栏PPV课数据科学社区

告诉你做数据分析必须学R的4个理由

论坛君:你很可能已经听说过 R,或许你知道 R 是一种编程语言,而且知道它与统计学有关,但它是否适合您呢?本文作者将试图向大家讲解他对R的看法,分享他认为试用开...

3406

扫码关注云+社区