使用mutate_all创建新列_使用查询创建新列_如何使用if创建新列 - 腾讯云开发者社区

r、dplyr

我想使用data.frame ()对mutate_all()的所有列进行迭代，然后使用ifelse()选择性地更改值。 testdf <- data.frame("a"=c(1,2,3), "b"=c(4,5,6), "c"=c(7,8,9)) mutate_all(testdf, ifelse(.>9,10,.)) 但这行不通。我总是得到“对象”。“找不到”。如何引用通过mutate_all()函数传递的单个值？我以为“.”是这样的吗？这样做是可行的： mutate_all(testdf, funs(.*2))

浏览 2提问于2018-12-12得票数 6

回答已采纳

1回答

从R中的数字列中提取特定数字

很抱歉，如果这是一个重复的问题，我搜索了，但没有找到我正在寻找的具体答案。我有一个数据框，其中一列是16位数的代码，还有许多其他列。下面是一个简化的示例： code = c("1109619910224003", "1157919910102001", "1539820070315001", "1563120190907002") year = c(1991, 1991, 2007, 2019) month = c(02, 01, 03, 09) dat = as.data.frame(cbind(code,year,mon

浏览 38提问于2020-07-15得票数 0

2回答

在dplyr::funs的命名参数中，我可以引用其他参数的名称吗？

r、dplyr、rlang

请考虑以下几点： library(tidyverse) df <- tibble(x = rnorm(100), y = rnorm(100, 10, 2), z = x * y) df %>% mutate_all(funs(avg = mean(.), dev = sd(.), scaled = (. - mean(.)) / sd(.))) 是否有方法通过引用mean和dev列来避免两次调用avg和dev。我想的是 df %>% mutate_all(funs(avg = mean(.), dev = sd(.), scaled = (. - avg) / de

浏览 0提问于2018-11-04得票数 8

回答已采纳

2回答

将不匹配的列类型行添加到现有的dataframe。

r、bind、rows、tidyverse

我希望向现有的混合列类型的数据框架(或tibble)中添加一行，该数据框架仅包含每个“列”的字符。这就是我如何使它工作，这应该是足够好，但这似乎应该更容易。 df代表了我之前创建的一个更复杂的数据框架。 df <- read_csv("12, 34, 10\n10, 29, 14", col_names = c("part_1", "part_2", "part_3")) c_name <- col

浏览 7提问于2017-10-12得票数 0

回答已采纳

2回答

对数据帧中的所有变量执行相同的变异。

r、dplyr

我有一个28个变量的数据框架，我想用相同的函数在同一个数据帧中修改每个变量。例如，为数据帧中的每个变量添加一个额外的列，其中新列是变量的日志。所以，例如，如果我有 dataframe <- data.frame(X=data1, Y=data2, Z=data3) 我想要一个新的数据框架，它包含X和Z，但也包含log(X)、log(Y)和log(Z)。这很容易使用。 mutate(dataframe, log(X)); mutate(dataframe(log(Y)) 等等，但是对于28个变量(以及每个变量的多个转换--我也想得到sqrt和^2 )，这有点太过了。我知道mutate_al

浏览 0提问于2018-10-30得票数 2

回答已采纳

1回答

如何重塑/格式化数据表--以列中的公共文本为子标题

r、dataframe、datatable、formatting、flextable

下面是我的df示例 structure(list(Name = c("Barry ", "Lisa"), Height = c("182 cm", "151 cm"), Hair = c("Black", "Red"), Mood = c("80% good 10% bad", "90% good 10% bad"), Grades = c("Math:45GPA English: 60GPA History: 40GPA", "Math

浏览 5提问于2022-06-30得票数 0

1回答

如何使用case_when和mutate_all插入变量值

r、dplyr、case-when

我有个看似小的问题。我想把mutate_all()和case_when()结合使用。样本数据框架： tbl <- tibble( x = c(0, 1, 2, 3, NA), y = c(0, 1, NA, 2, 3), z = c(0, NA, 1, 2, 3), date = rep(today(), 5) ) 我首先创建了另一个数据框架，用零替换所有NA，用下面的代码替换1的值。 tbl %>% mutate_all( funs( case_when( . %>% is.na() ~ 0, TRUE

浏览 2提问于2019-12-10得票数 3

回答已采纳

1回答

用每列的模式替换值

r、excel、azure

嘿，伙计们，我正在处理一个非常大的数据集(200列，750,000行)。有几个单元格的值为-1，我想根据该列的模式(最高重复值)替换每个单元格，而不仅仅是对所有-1的标准单元格。例如，A列中的-1被A列上的模式取代，B列中的-1被B列的模式所取代。是否有一种不用使用if函数创建新的200列和750,000行的方法来处理这个问题？谢谢您抽时间见我。你好，InWoords

浏览 1提问于2017-11-11得票数 1

回答已采纳

3回答

将小于阈值的列替换为0

我有一个有200列的数据文件。我希望使用dplyr来清理数据，以便将小于0.05的每个数字替换为0。下面粘贴了一个样本df。 df 0.07262 0.039885 0.090173 0.124043 0.09201 0.068309 0.146381 0.09127 0.060768 0.111031 这是预期的结果。 df 0.07262 0 0.090173 0.124043 0.09201 0.068309 0.146381 0.09127 0.060768 0.111031 这是我的代码：df2 <- mutate_all(ifelse(<0.05,0.,))，但是它不工

浏览 0提问于2018-10-09得票数 0

回答已采纳

1回答

将变形应用于dplyr中的多个列和行

r、rounding、dplyr

这是一个非常简单的问题，但却让我大吃一惊。我有一个表，并尝试使用mutate_all (或另一个dplyr函数)将每列四舍五入到两个小数位。我知道这可以通过某些应用函数来完成，但我喜欢dplyr/tidyverse框架。 DF = data.frame(A = seq(from = 1, to = 2, by = 0.0255), B = seq(from = 3, to = 4, by = 0.0255)) Rounded.DF = DF%>% mutate_all(funs(round(digits = 2))) 然而，这并不起作用，只是在每一列中给我一

浏览 3提问于2018-08-16得票数 2

回答已采纳

3回答

替换R数据框中的值时出现问题

使用Friendman1函数，如果value大于/小于或等于14.4时，我想创建一个用值TRUE/FALSE替换Target列的数据框。 library(mlbench) dataset <- mlbench.friedman1(1600) colnames(dataset$x) <- paste("Attr.", 1:10, sep="") data <- data.frame(dataset$x, dataset$y) colnames(data)[11] <- "Target" data$Target[data$T

浏览 2提问于2017-12-18得票数 0

1回答

在dplyr链的所有列中替换NA

r、dplyr、tidyverse

的问题最终得到了解决 dt %.% group_by(a) %.% mutate(b = ifelse(is.na(b), mean(b, na.rm = T), b)) 用dplyr。我想用dplyr链来推测所有的列。没有要分组的单一列，而是希望所有数字列都用诸如列方法替换所有NAs。 --用tidyverse/dp替换所有NAs的最优雅的方法是什么？

浏览 2提问于2018-01-02得票数 7

回答已采纳

3回答

在R中从整个数据中删除特殊字符

r、data-science、data-cleaning

问题：如何使用R快速有效地从数据文件中删除所有特殊字符？进度：因此，详细介绍了如何删除特殊字符。我可以将gsub函数应用于单个列(图1和2)，但不能应用整个dataframe。问题：我的dataframe由整数、字符串等组成的100+列组成。当我尝试在dataframe上运行gsub时，它不会返回我想要的输出。相反，我得到了如图3所示的内容。 df <- read.csv("C:/test.csv") dfa <- gsub("[[:punct:]]", "", df$a) #this works on a single c

浏览 0提问于2018-04-17得票数 5

回答已采纳

1回答

将int和num转换为factor

从这个数据帧中： df <- data.frame(id = c(1,2,3,4), scores = c(-1.1,0.2,1.3,-0.4), col2 = c(1,0,1,0), col2 = c(1,1,1,1), col3 = c(-0.3,-0.2,3.3,-2.4)) 如果我们使用str(df)，我们可以看到列是int或num。怎样才能转换成因子呢？例如此数据帧的str(df)： df <- data.frame(id = c('1','2

浏览 1提问于2018-03-08得票数 0

1回答

R将两列合并为一列

我在data.frame中有两列(类:字符)，其中包含大数(例如，A列: 999967258082532415；B列: 999967258082532415)。我需要一个新的C列，它合并了两个数字:999967258082532415999967258082532415 我用： data_1$visit_id <- do.call(paste, c(data_1[c("post_visid_high", "post_visid_low")], sep = "")) 但是我的新列被转换为因子，但我仍然想要一个字符。我能做什么?

浏览 0提问于2018-06-20得票数 1

回答已采纳

1回答

我想要添加递增的数据帧的连续列。

我有一个有20列的数据。我想先计算前两列的和，然后再算下三列，然后继续加，直到我得到所有20列的和为止。DataFrame只有0和1。如果k列数之和超过5，我希望将其余列的值更改为0。我无法创建一个循环来执行相同的操作。 0 0 0 1 1 0 1 1 1 0 0 0 0 1 1 0 0 0 1 0 1 0 0 0 1 0 0 1 0 1 0 0 0 1 1 1 0 0 0 1 0 1 0 1 1 0 0 0 0 1 0 1 0 1 0 0 0 1 1 0 在第一行中，由于我们在第9列中实现了sum=5，我希望将其余的值更改为0，即最后一个值改为0。

浏览 4提问于2020-04-23得票数 3

回答已采纳

5回答

用NA替换只包含空格的字符串。

r、na

我有一个包含名为Q1 (通过Q98 )的列的dataframe。这些列包含字符串("This is a string")，但有些条目只包含不同数量的空白(" "、" ")。我想用NA替换所有只包含空白的条目。考虑由以下代码创建的dataframe： df<-data.frame(Q1=c("Test test","Test"," "," "),Q2=c("Sample sample"," ","Sample",&#

浏览 2提问于2019-05-24得票数 1

回答已采纳

3回答

Dplyr:循环创建新列

r、dplyr

编辑:我的数据(用于可重复研究)如下所示。dplyr将汇总每个win_name类别的值： inv_name inv_province inv_town nip win_name value start duration year CustomerA łódzkie TownX 1111111111 CompX 233.50 2015-10-23 24 2017 CustomerA łódzkie TownX 1111111111 CompX 300.5 2015-10-23 24 2017 CustomerA

浏览 0提问于2018-02-28得票数 0

1回答

基于R中列均值的简单指数计算

python、r、dataframe、indexing、statistics

我有一个大约10列的数据。所有这些都是数字类型，并表示不同的地理区域。有些是相对价值，比如一定程度上的居民百分比，另一些是总价值，如总人口。它或多或少是这样的： median_age bachelor_rate emp_rate 1 35.2 0.05223252 0.6185185 2 22.5 0.40045249 0.7744094 3 36.3 0.26750261 0.8210526 4 36.8 0.07753825 0.5801861 5 2

浏览 4提问于2020-02-09得票数 3

回答已采纳

3回答

标识和修改数据帧中的列表单元格

r、dplyr

我使用pivot_wider来传播我的数据。但是，存在重复的行(尽管我仍然不清楚原因)，所以重复的行被存储在“list_columns”中。我现在正在尝试识别哪些单元格已经存储为列表，并且我希望仅用列表中的第一个元素替换这些值。示例： df <- tibble( a = list(c("a", "b"), "c"), b = list(1, 2), c = c(11, 22) ) 当我在RStudio View(df)中查看这个df时，a列中的第一个单元格显示为c("a", "b"

浏览 43提问于2020-06-10得票数 2

回答已采纳

1回答

将空单元格替换为筛选器后的零

r、dplyr

我正在尝试将空单元格替换为与应用了使用dplyr的filter的列不同的列中的零。例如, temp %>% filter(Publication.type == "Link") %>% # ** Insert function or 2 to replace NAs by zeroes in another column, say Clicks_30min ** 我相信is.na函数不能在这里工作，replace也不能。对其他解决方案也持开放态度。mutate_at能工作吗？我尝试变异，但它抛出了一个错误。

浏览 2提问于2018-04-03得票数 1

2回答

如何跨多个列有条件地用NA替换值

r、replace、dplyr、na

我想用NA替换数据中每列的离群值。例如，如果我们将离群值定义为任何大于3标准偏差的值，那么我可以通过下面的代码实现每个变量的这个值。我不想单独指定每个列，而是在一个调用中对df的所有列执行相同的操作。对怎么做有什么建议吗？！谢谢! library(dplyr) data("iris") df <- iris %>% select(Sepal.Length, Sepal.Width, Petal.Length)%>% head(10) # add a clear outlier to each variable df[1, 1:3] = 9

浏览 0提问于2019-04-18得票数 2

回答已采纳

1回答

将dataframe的列转换为factor

我有一个有100列的数据框，我想把它们都转换成因子。我们假设数据帧， a <- as.integer(c(1,2,1,2,1,1)) b <- as.integer(c(1,2,3,3,3,1)) df <- data.frame(a,b) 我在试这个， library(dplyr) colwise(df, as.factor(df)) 这会给我一个像这样的错误， > colwise(df, as.factor(df)) Error in sort.list(y) : 'x' must be atomic for 'sort.list'

浏览 0提问于2018-08-11得票数 0

1回答

R中MinMaxScaler中的多个功能

r、rescale

我有一个具有7个不同功能的数据帧。我需要缩放值，但对于每个独立的功能。我目前使用的是“重定标”。但是，我只能将其放到一列中，并使用1个要素的最小值和最大值转换所有数据！！如何为R中的每个列/功能使用MinMaxScaler？

浏览 11提问于2021-11-11得票数 0

2回答

在数据帧的不同行和列中选择多个NA

r、dataframe、selection、na

我有一个12000行35列的Dataframe，在不同的行或列中有多个NA。我想创建一个ifelse函数来选择这些值并将其更改为一个值(如"0“或"9999")。我的问题是，is.na(dataframe)似乎不能处理整个数据帧，但我对为每个单独的列进行选择并不是很感兴趣。有没有更好的方法？

浏览 33提问于2018-08-24得票数 0

回答已采纳

2回答

基于现有变量创建长长的变量列表

我有一个很长的变量列表，我想为每个变量创建一个虚拟变量。我使用下面的dplyr mutate代码来做这件事，但是我知道可以使用像SAS中的数组这样的东西(这样我就不必多次复制这一行)。我只是在Stack或其他任何地方都找不到合适的答案。 Grade_Dist2 <- Grade_Dist2 %>% mutate( ACCT2301_FA15_z = ifelse(ACCT2301_FA15 %in% c("A", "B", "C"), 1, ifelse(ACCT2301_FA15 %in% c("D&#

浏览 2提问于2017-09-30得票数 0

1回答

如何使用for循环打印函数输出

r、function、normalization、tibble

我正在尝试打印所有三列的归一化值，我正在使用separately.For循环，而我使用打印函数只得到最后一列，而没有打印function.How的列我可以单独获得所有输出吗？？ library(tibble) data_frame<-tibble(c1=rnorm(50,4,2), c2=rnorm(50,4,2), c3=rnorm(50,4,2)) normalize<-function(l) { (l-min(l))/(max(l)-min(l)) } for

浏览 23提问于2019-10-08得票数 0

1回答

跨R中的数据帧列表计算Herfindahl索引

我将以下数据存储在列表中： set.seed(12345) df1 = data.frame(replicate(10,sample(0:500,100,rep=TRUE))) df2 = data.frame(replicate(10,sample(0:500,100,rep=TRUE))) list = list(df1, df2) 如何执行以下操作： 1)对于每列，获取列总和中每个元素的份额(即，每个元素除以列总数)，然后将份额平方 2)取步骤1中每列的总和然后，输出将是一个包含2个向量( df1和df2各一个)的列表，每个向量包含10个分数。我的代码，如下所示，似乎不能工作。任何建

浏览 3提问于2018-05-23得票数 0

1回答

我有一个大约1000行和1000列的dataframe。我想要做的是，如果任何值存在于dataframe的任何单元格中，那么将值更改为1，否则在该单元格中放置0。我是用R编程，所以R代码将不胜感激。我不希望T列的值发生变化，但仅对其余的列进行更改。例如我有这样的数据： T A、B、C、D 1 29 90 0 100 2 30 12 76 0 3 0 12 0 32 将其转换为： T A、B、C、D 1 1 1 0 1 2 1 1 1 0 3 0 1 0 1

浏览 1提问于2020-03-08得票数 0

回答已采纳

1回答

r、dplyr

我有一个有两列的数据帧。一列是产品类型，另一列是字符。我本质上是想将列“product”分解为每个级别的12个不同的数据帧。因此，对于第一级，我运行以下代码： df = df %>% select('product','comments') df['product'] = as.character(df['product']) df['comments'] = as.character(df['comments']) 现在dataframe已经在我想要的结构中了，我想要获取各种子集，下面是

浏览 0提问于2018-09-17得票数 0

2回答

我如何在嵌套的tibble中移动一列tibbles？

r、dataframe、dplyr、purrr、tibble

我有一个有很多类别的数据框架。对于一个类别，我计算一个移位值。有了这个值，我想用这个值向下移动数据帧这一部分的每一列。为了执行这一操作，我认为使用“嵌套的tibble”，然后使用map函数purrr来执行移位可能是有用的。为了人工再现这个问题，我会用虹膜数据集创建这样一个数据框架： df <- iris %>% group_by(Species) %>% nest() %>% mutate(shift = as.integer(c(1, 2, 3))) df # A tibble: 3 x 3 Species data s

浏览 0提问于2019-04-11得票数 2

回答已采纳

1回答

截断dataframe - tidyverse的级别(stringr，haven)

r、tidyverse、stringr

我有一个数据框，其中包含来自在线调查平台的问卷数据。我试图用tidyverse的haven::write_sav()将这些数据帧的一部分写入到SPSS文件中，但是我遇到了一些数据争论的问题，这就是对数据的干扰。问题是，SPSS只允许小于120个字符的可变级别。我的变量级别超过了这个限制，这不允许我使用数据帧编写*.sav文件。因此，我的想法是将每个dataframe列的每个出现级别截断为<= 120个字符，以确保写入过程不会中断，但我不知道如何操作所有列中的所有级别。我像这样提取级别： df %>% lapply(levels) 但是之后我就不知道如何处理我得到的列表

浏览 2提问于2019-03-12得票数 2

2回答

dplyr's在每列上分别变异，每个列都有几个参数的自定义函数

r、dplyr

我有以下功能，我想应用于数据框架的列： ff <- function(w, epsi, df) { res <- w*(max(df, na.rm = T) - min(df, na.rm=T)+2*epsi)+min(df, na.rm = T) - epsi return(res) } 该函数应该应用于w的每一列，使用参数epsi和df。函数必须取w的每个值，并将其乘以对应的df列的最大值减去df列的min，依此类推。例如： > w # A tibble: 5 x 2 A B <dbl> <dbl> 1 0.2

浏览 1提问于2018-07-28得票数 2

回答已采纳

4回答

使用dplyr将所有不频繁的字符串更改为“other”

r、dplyr

我的数据框架中有一列字符串，我试图将除n之外最常见的字符串替换为"other“。尽管我目前的方法有效，但它似乎非常复杂，因为它涉及创建一个Ti球和使用%in%创建一个布尔向量。因此，我的问题是:是否有更简单的方法使用dplyr来完成这一任务?如果是这样的话，我将如何将其封装在一个函数中并使用mutate_all跨多个列应用它？ library(dplyr) # setting up the data frame: letter.df <- data_frame(val=sample(1:25, size = 100, replace = TRUE),

浏览 0提问于2018-01-29得票数 5

1回答

r、type-conversion、bind、rbind

我正在尝试使用以下代码读取.xlsx格式的80+ excel文件并将其合并到一个数据库中： library(readxl) library(purr) library(dplyr) library(tidyverse) file.list <- list.files(pattern='*.xlsx') alldata <- file.list %>% map_dfr(read_excel) %>% reduce(bind_rows) 我的问题是它会用到Error: Column 'Cage' can't be converted

浏览 2提问于2019-11-18得票数 0

1回答

R中使用Mutate_all的错误

r、dplyr

我必须检查数据中的所有列中是否有负值。这里是来自Dataframes列表的我的DF的结构，它们都有相同的结构。 FECHA SPX Index MCUDNA Index SX5E Index MXEMSC Index MXME Index 2 2010-12-31 332.636 332.63 242.86 237.44 567.35 3 2011-01-07 334.327 334.327 808.25 234.02 235.26 4 2011-01-14 341.771 341.771

浏览 0提问于2018-03-14得票数 1

4回答

根据条件添加带有dplyr和填充单元格的多列

r、dplyr

我试图： 1)添加与现有列对应的多个列(例如，a1存在并添加a1_yes)。 2)接下来，如果给定的单元格包含1:3，则将1放在a#_yes列中，否则，放置0。我可以轻松地使用基本R，但我也试图使它与dplyr一起工作。我的数据： df <- data.frame(a1 = c(1, 2, 0, NA, NA), a2 = c(NA, 1, 2, 3, 3)) 以R为基数： df[paste0("a", 1:2, "_yes")] <- NA # add columns for(c in 1:2)

浏览 5提问于2019-11-26得票数 3

回答已采纳

3回答

dplyr在循环问题的内部发生变异

r、for-loop、dplyr

我正在执行数据分析和清理R使用tidyverse。我有一个包含23列的数据框架，其中包含'NO‘、'STEADY’、'UP‘和'down’。我想将这23列中的所有值更改为0，如果是'NO'，‘稳态’，而在其他情况下是1。我所做的是，我根据名称键创建了一个列表，其中保留了我的所有列，之后我使用for循环、ifelse语句和变体。请看下面的代码 # Column names are kept in the list by name keys keys = c('metformin', 'repaglinide',

浏览 1提问于2019-07-28得票数 2