变异(交叉)以在tidyverse中生成多个新列

在R语言的tidyverse包中，变异（mutate）函数用于创建新的变量（列）。通过结合交叉（crossing）函数，可以生成多个新列的组合。

基础概念

变异（mutate）：在数据框中添加新列或修改现有列。
交叉（crossing）：生成两个或多个变量的所有组合。

类型

基本变异：使用mutate()函数直接创建新列。
交叉变异：结合crossing()函数生成所有可能的组合。

应用场景

数据探索：生成所有可能的变量组合以进行深入分析。
特征工程：在机器学习中创建新的特征组合。

示例代码

假设我们有两个数据框df1和df2，我们希望生成它们所有可能的组合：

library(tidyverse)

# 示例数据框
df1 <- tibble(id = 1:3, value1 = c("A", "B", "C"))
df2 <- tibble(id = 1:2, value2 = c("X", "Y"))

# 使用crossing生成所有组合
combinations <- crossing(df1, df2)

# 查看结果
print(combinations)

遇到的问题及解决方法

问题：生成的组合过多，导致内存不足。

原因：当变量数量和取值范围较大时，组合的数量会急剧增加。

解决方法：

分批处理：将数据分成多个小批次进行处理。
采样：对数据进行随机采样，减少组合数量。

# 分批处理示例
batch_size <- 1000
num_batches <- ceiling(nrow(df1) * nrow(df2) / batch_size)

for (i in 1:num_batches) {
  start_row <- (i - 1) * batch_size + 1
  end_row <- min(i * batch_size, nrow(df1) * nrow(df2))
  
  batch_combinations <- crossing(df1, df2)[start_row:end_row, ]
  # 处理每个批次的组合
}

参考链接

通过以上方法，可以在tidyverse中高效地生成多个新列的组合，并解决可能遇到的内存不足问题。

变异(交叉)以在tidyverse中生成多个新列

、

我通常必须对一系列可由后缀标识的变量/列执行等价计算(范围，假设从_a到_i)，并将结果保存在新的变量/列中。计算是等效的，但在计算中使用的变量之间有所不同。oldvar2_i) - z 这是我得到的最公平的： mutate(across(c(oldvar1_a:oldvar1_i), ~ . - z, .names = "{col}_new")) 因此，我可以在oldvar1_a上“循环”到oldvar1_i，从它们中减去z，然后将结果保存在名为

浏览 24提问于2021-11-23得票数 2

回答已采纳

2回答

如果列名位于另一列中，则更改列范围的单元格。

我有一个巨大的数据集，如果列名位于另一列中，则希望在该数据集中更改列范围中的单元格值。我知道我可以通过细胞循环，并使用it，但这似乎很快就会变慢。

浏览 6提问于2022-06-30得票数 0

回答已采纳

3回答

将数据扩展到新列，同时还总结(添加)值-R或SQL

、、

2 2015 AZ 32 3 2011 OV 104 2 2014 44 NA 3 2011 NA 10

浏览 0提问于2019-03-06得票数 0

回答已采纳

6回答

遗传算法中的交叉效率

、

然而，我仍然怀疑交叉/重组是否有用。我理解其背后的理由:交叉允许将两

浏览 6提问于2011-07-22得票数 26

回答已采纳

3回答

根据另一列中的值重新构造状态列

、、、

FRA FRA NA 4 UKR RUS NA

浏览 0提问于2018-12-11得票数 0

回答已采纳

1回答

所有进化算法都是用二进制术语对种群进行编码吗？

、、、、

我是新的启发式优化方法和学习不同的优化算法在这个领域，如遗传算法，粒子群算法，DE，CMA ES等。这些算法的一般流程似乎是初始化一个种群、选择、交叉和变异以进行更新、评估和循环。遗传算法中种群生成的第一步似乎是由一个染色体编码，染色体是由0和1s组成的位串，然后执行所有其他操作。GE有简单的变异和交叉等更新方法，但在其他算法中更新方法不同。

浏览 6提问于2022-08-17得票数 0

1回答

从具有多个值的行中随机选择1个值；创建一个包含已清理数据的新列

、

似乎是一个简单的函数，但似乎找不到在R上这样做的好方法。我有一个列P，它有许多行，有多个输入：340000,410000530000330000,440000440000320000值应随机选择)：(对间距表示歉意，间距就是每个值都是不同的行)450000*110000510000620000我想要构建一个新列，该列从每

浏览 1提问于2020-10-16得票数 0

回答已采纳

3回答

遗传算法: 2D染色体；交叉和变异概率

、、

其中X是指数据数组中包含的数据。(最大化是在为下一代选择最适合的染色体的世代进行的) ( Q1)我使用一个随机数发生器作为交叉和变异概率。一般来说，用一个生成器来实现它是正确的吗？我问这个问题是因为我选择的交叉率是0.7，变异是0.01。我的随机数生成器生成一个均匀分布的整数。该数字介于0到(2^31 - 1)之间。如果随机函数生成的数位于满足变异的边界下，则相同的数也满足交叉。这对进化过程有影响吗

浏览 5提问于2014-01-18得票数 3

回答已采纳

1回答

遗传算法-求解具有硬行和软列约束的矩阵

、、

我正在写一个GP，我需要一些关于交叉和变异操作的建议。GP正在尝试为具有硬行约束和软列约束的矩阵找到最佳解决方案。我需要一点建议的地方

浏览 1提问于2012-07-18得票数 0

回答已采纳

2回答

如何在二进制字符串中利用遗传算法？

、、、

现在我想利用这个向量在搜索空间中进行搜索，我已经了解到我必须在二进制字符串中的LSB周围翻转更多的位来执行exploitation.So，我想生成一个指数分布并根据it.Will对位进行变异(翻转)这是一个可行的解决方案} key[k]=0; }但是，我觉得上面的代码是有偏见的，因为rand()/RAND_MAX将生成

浏览 7提问于2021-04-21得票数 0

2回答

为什么AI遗传算法在每一代中都会给出一个同样合适或更合适的解决方案？

、

我在人工智能方面很新，但想一步一步地改进;-)所以请帮助我理解这个算法。在每一次迭代中，都会创建新一代的总体。为什么它会包含一个同等适合或更合适的个人？

浏览 0提问于2021-05-15得票数 0

回答已采纳

1回答

Python -迭代自交叉引用

、、、、

我在excel中有一个表，其中包含一个标识符列和一个交叉引用列。单个标识符可以有多个行，指示多个交叉引用。(见下面的基本示例)任何以字母"X“结尾的记录都表明它是交叉引用，而不是实际的标识符。我需要为每个标识符生成一个交叉引用列表，但是可以追溯到实际的交叉引用标识符。因此，使用上面表中的"A1“作为示例，我需要返回的列表如下："A2，A3，

浏览 1提问于2014-12-30得票数 0

回答已采纳

1回答

使用依赖于条件语句的不同函数创建多个新列

、

我想在一个基于条件的数据框中创建多个新列。从阅读其他问题来看，我认为这需要在mutate()函数中使用case_when()函数。尽管我熟悉使用mutate()创建新列，但我不能让它与基于条件的不同函数一起使用。e = c(0.2, 0.6, NA, 0.4, 0.5), f = c(0.7, 0.2, NA, 0.5, 0.5)) 我的实际数据框包含60个变量，但以df1为例，我想： i)标识哪些列包含值≤0 ii)对于

浏览 16提问于2020-03-21得票数 0

回答已采纳

1回答

如何将列表作为函数的输出存储在tibble中？

、

我试图将函数从tibble获取输入的结果以列表的形式存储在列中。我正在考虑使用一个矢量化的版本，并从tidyverse中变异出来，如下所示： test <- tibble(a=rep(1,10), b=seq(1,10)) return_list <- function

浏览 16提问于2020-06-22得票数 0

回答已采纳

9回答

在`dplyr`中使用动态变量名

、、

我想使用dplyr::mutate()在一个数据框中创建多个新列。列名及其内容应该是动态生成的。来自iris的示例数据：iris <- as_tibble(iris)multipetal <- functiondf <- mutate(df, varname = Petal.Width * n) ## problem

浏览 288提问于2014-09-24得票数 224

回答已采纳

1回答

我的遗传算法程序没有收敛到超过一定程度的适应度

、、

(最小化问题)我的适应值在最初的几次迭代中很快收敛，但在一段时间后趋于平缓，并且不会给出低于该值的适应值。期望的适合度~ 10^(-6)我得到的适合度~ 0.015 此外，我还注意到我正在处理的数据群体(群体大小= 20)，它们中的大多数在几百次迭代后都采用相同的值，即20个值中约有15个是相同的，所以我猜交叉将停止生成新的子代遗传算法的逻辑是:种群规模20，迭代次数

浏览 1提问于2015-05-18得票数 1

3回答