《R语言实战》学习笔记(四)

往期回顾

在上一篇我们介绍了导入数据到R中的方法,但导入数据仅仅是数据准备的第一步;在实际数据分析之前的数据准备工作,占整体数据分析工作的60%左右,接下来我们就共同学习,基本数据管理的方式,包括创建新变量变量的重编码、变量的重命名、缺失值处理、日期值、类型转换数据排序、数据集的合并、数据集取子集、使用SQL语句操作数据框等

一、创建新变量

语句形式:变量名

提供三种方式:(1)mydata

mydata$sumx ;(2)attach(mydata)

mydata$sumx

detach(mydata);(3)mydata 第三种方式简化了按需创建变量并将其保存到数据框中的过程。

二、变量的重编码

重编码涉及根据同一个变量和/或其他变量的现有创建值的过程。例如:你可能需要:1、将1个连续变量修改为一组类别值;2、将误编码的值替换为正确值;3、基于一组分数线创建一个表示及格/不及格的变量。

以一个代码为例:

leadership

agecat

agecat[age > 75]

agecat[age >=55 & age

agecat[age

其中函数within()与函数with()类似,不同的是它允许修改数据框。若干程序包中提供了实用的变量重编码函数,car包中recode()函数非常简单实用;doBy包提供recodevar()函数也很受欢迎;R中自带了cut(),将一个数值型变量按值域切割为多个区间,并返回一个因子。

三、变量的重命名

如果对现有的变量名称不满意,可以通过交互地或者以编程的方式修改它们。

3.1 交互式编辑器

可以通过fix(leadership)来调用交互式的编辑器,然后在弹出的对话框中将其重命名。

3.2 编程式

reshape包中有一个rename()函数,可用于修改变量名。使用格式如下

rename

也可以通过names()函数重命名变量。例如:

names(leadership)[2]

以上学习了变量的基本处理,下一篇我们会学习缺失值处理、日期值、类型转换、数据排序、数据集的合并、数据集取子集、使用SQL语句操作数据框等内容。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180312G18DHJ00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券