前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >R海拾遗 fastDummies_哑变量处理

R海拾遗 fastDummies_哑变量处理

作者头像
火星娃统计
发布2022-03-04 13:49:25
4640
发布2022-03-04 13:49:25
举报
文章被收录于专栏:火星娃统计火星娃统计

1. R海拾遗 fastDummies_哑变量处理包

  • 1. R海拾遗 fastDummies_哑变量处理包
    • 1.1. 概述
    • 1.2. dummies
    • 1.3. 函数
    • 1.4. 例子
    • 1.5. summary

1.1. 概述

目的:为了能够快速建立哑变量,兼容更多的算法

1.2. dummies

其实类似的包有很多,但是这个包用起来比较舒服,简单 特点:

  • 可选哑变量列
  • 哑变量因子和字符变量
  • 速度较快

1.3. 函数

代码语言:javascript
复制
dummy_cols(
  .data,
  select_columns = NULL,
  remove_first_dummy = FALSE,
  remove_most_frequent_dummy = FALSE,
  ignore_na = FALSE,
  split = NULL,
  remove_selected_columns = FALSE
)
  • data
  • select_columns 纳入的列
  • remove_first_dummy 是否删除第一个类别
  • ignore_na 缺失值是否忽略
  • split 字符串,列名和类的中间是“——”
  • remove_selected_columns 是否去除原始列

1.4. 例子

代码语言:javascript
复制
crime <- data.frame(city = c("SF", "SF", "NYC"),
    year = c(1990, 2000, 1990),
    crime = 1:3)
dummy_cols(crime)
# Include year column
dummy_cols(crime, select_columns = c("city", "year"))
# Remove first dummy for each pair of dummy columns made
dummy_cols(crime, select_columns = c("city", "year"),
    remove_first_dummy = TRUE)

如果批量处理的话,完全可以纳入自定义函数中,可以结合更多的功能实现批量话的目的

代码语言:javascript
复制
to_dummy <- function(data,to_dumvar ) {
  library(fastDummies)
  data_dum <- dummy_cols(data,
                    select_columns=to_dumvar,
                    remove_most_frequent_dummy  = TRUE,
                    ignore_na=TRUE,
                    split="_",
                    remove_selected_columns=TRUE)
  return(data_dum)
}

1.5. summary

love & peace

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-01-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 火星娃统计 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. R海拾遗 fastDummies_哑变量处理包
    • 1.1. 概述
      • 1.2. dummies
        • 1.3. 函数
          • 1.4. 例子
            • 1.5. summary
            领券
            问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档