前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >「Workshop」第二期:程序控制与数据操作流

「Workshop」第二期:程序控制与数据操作流

作者头像
王诗翔呀
发布2020-07-02 17:23:33
1.5K0
发布2020-07-02 17:23:33
举报
文章被收录于专栏:优雅R优雅R

这一次的内容太多了,我讲了 2 小时都没讲完,后续再放视频吧。有一段还忘记录了。。。涉及编程的数据和代码都会放到 https://github.com/XSLiuLab/Workshop

推荐图书

  • 《R for Data Science》[1]
  • 《R 语言编程指南》
  • 《R 实战》
  • 其他推荐见:https://shixiangwang.gitee.io/geek-r-tutorial/expand-reading.html

R 编程基础

  • https://shixiangwang.gitee.io/geek-r-tutorial/base.html

内容:

  • 基础语法
  • 控制与循环结构
  • 函数与包
  • 数据读取和保存
    • read.*write.*
    • loadsave
    • readRDSsaveRDS

数据操作流程

  • 放本小抄在身边,随时查阅

Tidyverse

  • https://github.com/tidyverse/
  • 数据导入 read_*
  • 管道 %>%
    • x %>% f(y) > f(x, y)
  • 筛选
    • contains
    • num_range
    • starts_with
    • ends_with
    • one_of
    • matches
    • 行筛选 slice, filter, sample_n, sample_frac, top_n, distinct
    • 列筛选 select
    • 排序 arrange
  • 行列增加/更新
    • 基本的数学和比较逻辑运算符 + - * / > < ==
    • 偏移 dplyr:: lag lead
    • 聚合 dplyr:: cumall cumany cummax cummean cummin cumprod cumsum
    • 排序 dplyr:: cume_dist dense_rank min_rank ntile percent_rank row_number
    • 其他 dplyr:: between case_when coalesce if_else na_if pmax pmin recode recode_factor
    • mutate, transmute
    • mutate_
    • add_row
    • add_column
    • rename
    • rownames_to_column, column_to_rowname
    • 向量化函数
  • 汇总
    • 计数 dplyr:: n n_distinct base::sum(!is.na())
    • 位置 mean, meadian
    • 逻辑值 mean, sum
    • 位置 dplyr:: first last nth
    • 排序 quantile min max
    • 分布 IQR mad sd var
    • count
    • summarize
    • 简单汇总
    • 分组汇总 group_by, ungroup
    • 汇总函数
  • 合并
    • bind_rows
    • bind_cols
    • semi_join
    • anti_join
    • left_join, right_join, inner_join, full_join
    • intersect
    • setdiff
    • union
    • setequal 辅助查看两个数据集是否相同(不管行序)
  • 变异动词 (_at, _if, _all)
    • filter_*
    • select_*
    • summarize_*
    • arrange_*
    • ...
  • 字符处理
    • substr
    • stringr包与正则表达式略微复杂,可以单独讲一次
  • 转换 tidyr
    • Tidy 数据格式
    • tibble
    • tribble, enframe
    • as_tibble, is_tibble
  • 缺失值
    • drop_na
    • fill
    • replace_na
  • 长转宽 pivot_wider, spread
  • 宽转长 pivot_longer, gather
  • 拓展表格
    • expand
    • complete
  • 分割和连接
    • separate
    • separate_rows
    • unite
  • 数据导出
    • write_*

data.table 与 base

  • 数据导入 fread
  • 数据导出 fwrite
  • data.table 语法 dt[i, j, by]
  • 数据过滤与合并等操作与 R 基础语法一致,也可以使用 tidyverse 处理
    • 整数索引
    • 逻辑索引
    • 命名索引
  • 进一步的学习参考小抄、文档和《R 语言编程指南》

后几期主题

本期未讲述的内容???

  • 正则表达式与字符串处理:basestringr
  • 列表处理与迭代计算:purrr
  • 统计建模:statsbroom
  • 绘图:graphicsggplot2
  • 函数编程:apply家族和purrr

开发:

  • devtools
  • usethis
  • testthat
  • roxygen2 与 roxytest

参考资料

[1]

《R for Data Science》: http://r4ds.had.co.nz/

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-05-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 优雅R 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 推荐图书
  • R 编程基础
  • 数据操作流程
    • Tidyverse
      • data.table 与 base
      • 后几期主题
        • 参考资料
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档