前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【数据分析 R语言实战】学习笔记 第三章 数据预处理 (上)

【数据分析 R语言实战】学习笔记 第三章 数据预处理 (上)

作者头像
统计学家
发布2019-04-10 16:51:52
7790
发布2019-04-10 16:51:52
举报
文章被收录于专栏:机器学习与统计学

数据是分析的核心,在做数据分析之前,首先要对数据进行一定的处理。数据预处理指当录入或读取数据后,对数据进行必要的清理,包括查错纠错、异常观察值和无效样本的处理、转换、填补缺失值等,这是数据分析的重要前提,是描述统计、定性定量分析的基础。它的主要口的就是为后续的分析工作提供经过清理、质量较好的数据集。

3.1基本函数

基本数学函数

高级数学函数

代码语言:javascript
复制
> data=read.table("c:/Program Files/RStudio/1.txt",header=T)
代码语言:javascript
复制
> attach(data)
代码语言:javascript
复制
> mean(salary)
代码语言:javascript
复制
[1] 4.666667
代码语言:javascript
复制
> length(salary)
代码语言:javascript
复制
[1] 12
代码语言:javascript
复制
> cumsum(salary)
代码语言:javascript
复制
 [1]  2  6 14 19 26 35 41 42 44 48 51 56

当数据量较多时,要想统计数值大小等基木信息、比较困难,所以需要对其分组,从而大致描述数据信息。需要利用函数。cut(),它可以把数值型对象分区间转换为因子,调用格式如下:

cut (x, breaks, labels=NULL,include.lowest=FALSE, right=TRUE…)

其中,x为被转换的对象,是一个数值向量;breaks可以是单个数字,指明x要分为几组,也可以是一个向量,可自行设置分组的切点:labels给每个组添加标签;include.lowest是逻辑值,指明区间的开闭情况,即区间端点值是否包括在内:right也是逻辑值,默认区间为左开右闭。

代码语言:javascript
复制
> salary1=cut(salary,3)
代码语言:javascript
复制
> table(salary1)
代码语言:javascript
复制
salary1
代码语言:javascript
复制
(0.992,3.67]  (3.67,6.33]  (6.33,9.01] 
代码语言:javascript
复制
           4            5            3 
代码语言:javascript
复制
> salary1=cut(salary,3,labels=c("low","medium","hight"))
代码语言:javascript
复制
> table(salary1)
代码语言:javascript
复制
salary1
代码语言:javascript
复制
   low medium  hight 
代码语言:javascript
复制
     4      5      3 
代码语言:javascript
复制
> breakpoints=c(0,3,4,5)
代码语言:javascript
复制
> salary2=cut(salary,breaks=breakpoints)
代码语言:javascript
复制
> table(salary2)
代码语言:javascript
复制
salary2
代码语言:javascript
复制
(0,3] (3,4] (4,5] 
代码语言:javascript
复制
4     2     2 

落入不同工资段内的数据个数

代码语言:javascript
复制
> breakpoints=c(0,3,4,5,6)
代码语言:javascript
复制
> salary2=cut(salary,breaks=breakpoints)
代码语言:javascript
复制
> table(salary2)
代码语言:javascript
复制
salary2
代码语言:javascript
复制
(0,3] (3,4] (4,5] (5,6] 
代码语言:javascript
复制
4     2     2     1 

对数据绘制出多个图形

代码语言:javascript
复制
> pic=function(x){
代码语言:javascript
复制
+   par(mfrow=c(2,2))
代码语言:javascript
复制
+   hist(x)
代码语言:javascript
复制
+   dotchart(x)
代码语言:javascript
复制
+   boxplot(x)
代码语言:javascript
复制
+   qqnorm(x);qqline(x)
代码语言:javascript
复制
+   par(mfrow=c(1,1))
代码语言:javascript
复制
+ }
代码语言:javascript
复制
> pic(salary)

3.2数据修改

3.2.1修改数据标签

代码语言:javascript
复制
> data=read.table("c:/Program Files/RStudio/1.txt",header=T,stringsAsFactors=F)
代码语言:javascript
复制
> names(data)=c("City","Price","Salary")
代码语言:javascript
复制
> names(data)
代码语言:javascript
复制
[1] "City"   "Price"  "Salary"

3.2.2行列删除

data[-a,-b]表示删除数据集的第a列,第b行

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2015-05-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习与统计学 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档