首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >标记列到虚拟列

标记列到虚拟列
EN

Stack Overflow用户
提问于 2016-12-23 14:19:24
回答 3查看 177关注 0票数 0

假设有一个非常简单的csv文件,如下所示:

代码语言:javascript
运行
复制
output,input,tags
0,0,sunday-hot
1,3,sunday
5,1,hot-random

其中标记列由一系列关键字组成,所有关键字都由"-“分隔。

我想要的是将它转换成如下所示的数据集:

代码语言:javascript
运行
复制
output,input,sunday,hot,random
0,0,T,T,F
1,3,T,F,F
5,1,F,T,T
EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2016-12-23 15:13:00

这里有一种使用dplyr/tidyr的方法。使用separate_rows()将粘贴的标记列分隔为普通列,该列在每个单元格中包含一个值;创建一个包含所有要传播的TRUE的值列;用FALSE填充缺失的值。

代码语言:javascript
运行
复制
library(dplyr); library(tidyr)

df %>% separate_rows(tags) %>% 
       mutate(val = TRUE) %>% 
       spread(tags, val, fill = FALSE)

#  output input   hot random sunday
#1      0     0  TRUE  FALSE   TRUE
#2      1     3 FALSE  FALSE   TRUE
#3      5     1  TRUE   TRUE  FALSE
票数 2
EN

Stack Overflow用户

发布于 2016-12-23 15:20:40

我们可以使用mtabulate使用一个一行程序来完成这一任务。

代码语言:javascript
运行
复制
library(qdapTools)
cbind(df1[-3], mtabulate(strsplit(df1$tags, "-"))!=0)
#   output input   hot random sunday
#1      0     0  TRUE  FALSE   TRUE
#2      1     3 FALSE  FALSE   TRUE
#3      5     1  TRUE   TRUE  FALSE

注意:如果“标记”列是factor类,则用as.character包装它,因为strsplit只接受character类作为输入。

票数 3
EN

Stack Overflow用户

发布于 2016-12-23 14:46:55

您想要存储数据的方式根本没有效率,因为您将创建一个疯狂的数量的列,其值大部分时间都会丢失。

相反,请看一下https://github.com/juliasilge/tidytextunnest_tokens函数。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/41303110

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档