专栏首页庄闪闪的R语言手册R数据科学|第八章内容介绍

R数据科学|第八章内容介绍

使用readr进行数据导入

本文将介绍如何使用readr包将平面文件加载到 R 中,readr 也是 tidyverse 的核心 R包之一。

基本函数

函数

功能

read_csv

读取逗号分隔文件

read_csv2

读取分号分隔文件

read_tsv

读取制表符分隔文件

read_delim

读取使用任意分隔符的文件

read_fwf

读取固定宽度的文件

read_table

读取空白字符来分隔各列分隔符的文件

read_log

读取Apache 风格的日志文件,需要安装webreadr包

这些函数都具有同样的语法,可以举一反三。我们将重点介绍read_csv() 函数,不仅因为 CSV 文件是数据存储最常用的形式之一,还因为一旦掌握 read_csv() 函数,你就可以将从中学到的知识非常轻松地应用于 readr 的其他函数。

read_csv()函数中包含的参数如下:

read_csv(
  file,
  col_names = TRUE,
  col_types = NULL,
  locale = default_locale(),
  na = c("", "NA"),
  quoted_na = TRUE,
  quote = "\"",
  comment = "",
  trim_ws = TRUE,
  skip = 0,
  n_max = Inf,
  guess_max = min(1000, n_max),
  progress = show_progress(),
  skip_empty_rows = TRUE
)

下面介绍各个参数的作用:

参数

作用

file

读取的文件路径,路径名需要用反斜杠表示

col_names

如果为TRUE,输入的第一行将被用作列名,并且不会包含在数据帧中。如果为FALSE,将自动生成列名:X1, X2, X3等。如果col_names是一个字符向量,这些值将被用作列的名称,并且输入的第一行将被读入输出数据帧的第一行。缺少(NA)列名将产生一个警告,并被填充为哑名X1, X2等。重复的列名将生成警告,并使用数字后缀使其惟一。

col_types

设置类变量的类型

locale

区域设置控制的默认值因地方而异。默认的区域设置是以美国为中心的(如R),但您可以使用locale()创建自己的区域设置,控制默认时区、编码、十进制标记、大标记和日/月名称等内容。

na

字符串的字符向量,解释为缺少的值。将此选项设置为character(),以指示没有丢失的值。

quoted_na

是否引号内缺少的值应该被视为缺少的值(默认)或字符串

comment

用于标识注释的字符串

trim_ws

在解析每个字段之前,是否应该修剪其前导和尾随空格?

skip

读取数据之前要跳过的行数。

n_max

要读取的最大记录数。

guess_max

用于猜测列类型的最大记录数

progress

显示进度条

skip_empty_rows

是否忽略空白行

如果能够熟练使用read_csv()函数,就能同样使用readr包中的其他函数来读取文件了,因为所含参数都是大致相同的,这里我们给出常用的两个例子。

读取外部数据

city <- read_csv("C:/Users/Administrator/Desktop/data.csv")

保存到外部文件

city <- write_csv("C:/Users/Administrator/Desktop/data.csv")

本文分享自微信公众号 - 庄闪闪的R语言手册(Zss_R4ds),作者:我才是赵西西

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2021-01-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • R数据科学|第九章内容介绍

    在实际应用中,我们常会涉及到多个数据表,必须综合使用它们才能找到关键信息。存在于多个表中的这种数据统称为关系数据。本章中的很多概念都和SQL中的相似,只是在dp...

    庄闪闪
  • R数据科学|第七章内容介绍

    tibble是一种简单数据框,它对data.frame的功能进行了一些修改,更易于使用。本文将介绍tidyverse的核心R包之一——tibble包

    庄闪闪
  • R数据科学|第十章内容介绍

    可以使用str_sub()函数来提取字符串的一部分。除了字符串参数外,str_sub() 函数中还 有 start 和 end 参数,它们给出了子串的位置(包括...

    庄闪闪
  • R数据科学|第十一章内容介绍

    因子在 R 中用于处理分类变量。从历史上看,因子远比字符串更容易处理。因此,R 基础包中的很多函数都自动将字符串转换为因子。

    庄闪闪
  • R数据科学|5.5.3内容介绍

    最简单的一种方法是:使用geom_point()画出散点图。你可以将相关变动看作点的模式。例如,你可以看到钻石的克拉数和价值之间存在一种指数关系:

    庄闪闪
  • R数据科学|3.6内容介绍

    上节我们对选择现有的列和使用mutate添加新列做了介绍。现在对数据框使用summarize()进行分组摘要进行介绍。函数功能:summarize()可以将数据...

    庄闪闪
  • R数据科学|5.5.1 内容介绍

    如果变动描述的是一个变量内部的行为,那么相关变动描述的就是多个变量之间的行为。相关变动是两个或多个变量以相关的方式共同变化所表现出的趋势。查看相关变动的最好 方...

    庄闪闪
  • R数据科学|5.3内容介绍

    上一期我们对《R数据科学》第3.7节进行了内容介绍和习题解答,细心的读者可以发现,这里直接跳转到了5.3节了。原因在于中间各节内容干货较少,也没有习题,所以就跳...

    庄闪闪
  • R数据科学|3.4内容介绍及习题解答

    通过基于变量名的操作,select()函数可以让你生成一个有用的变量子集。基本用法如下:

    庄闪闪

扫码关注云+社区

领取腾讯云代金券