如何使用pivot_wider对R中值列中存在重复和多个类的数据集进行整理

文章/答案/技术大牛

发布

1回答

我正在尝试使用pivot_wider来整理数据集，但我遇到了一些我不知道如何处理的问题。在我赋值给"values_from“的值列"OrigValueStr”中，我既有数字又有因子。因为有一些重复项，所以我希望从数值中获得平均值，但我希望将因子作为因子(可能通过将可能的重复项放在彼此后面，用";“或"_”分

浏览 40提问于2020-01-20得票数 0

回答已采纳

2回答

用于大数据集的pivot_wider替代方案

、

我有一个大数据集(35.8 GB，超过10亿行)，我需要整理。full <- as.data.table(full)此代码适用于此示例： pivot_wider(names_from = item, values_from = itemformat)但是，在大规模数据<e

浏览 3提问于2022-10-20得票数 6

回答已采纳

1回答

R中数据帧中重复列的分裂和重命名

、、、

我对R非常陌生，我正在整理数据集。我有大量的列，其中一些列(在.CSV文件中)包含几个逗号分隔的名称。例如，我需要拆分和复制该列，并将逗号分隔的名称分别提供给每一列：但是，我可能有更复杂的情况，其中有几个列(具有不同的数值)具有相同的重复

浏览 2提问于2018-05-31得票数 0

回答已采纳

1回答

如何对数据进行预处理以处理R中缺失的值

、、、、

我试图在R中对我的数据进行预处理，以便对属于给定元组“”的所有样本使用“属性平均值”。数据源提供程序已经给出了丢失的值或超出范围的值-1。但是，我想根据上面用粗体表示的数据挖掘原则来替换那些缺失的值。作为我的类决策器的列是“意外严重度”，我想给出所有样本<

浏览 1提问于2014-03-20得票数 0

2回答

R:通过R中列的范畴变量对Sumif和Countif等价

、、、

假设我有一个10列的数据集。其中9个是数值，一个是分类值，如HIgh中值和低值。我想用范畴变量对R中所有9个数字列进行总结(类似于excel中的sumif和countif )。这是如何做到的呢？我对R很陌生，任何帮助都是很棒的！谢谢!

浏览 7提问于2015-09-14得票数 0

回答已采纳

1回答

R pivot_wider为每一行保留一个id

、

我有一个包含ID和值的数据集，其中一个ID可以接受多个值。目前，相同的ID在具有多个值时是按行顺序重复的，但我希望每行保留一个ID，在必要时添加更多的列。下面是一个可重复的例子： val = c(10:15))df2

浏览 1提问于2020-07-19得票数 0

回答已采纳

1回答

比较数据，如果存在多行相同的数据，则将规则作为参数提及

我收集了数据，任务是用一定的规则检查多个列。例如:如果Username列和employee ID匹配，则检查重复项；如果存在匹配项，则需要记下重复的值，并在输出列中写入R1。然后，下一步是检查Username和员工工资，然后检查重复项，如果存在匹配，则需要注意重复的值，并在输出列中</

浏览 5提问于2020-11-07得票数 0

1回答

在returning中，当结合使用mutate()和c_across()时，所有行都返回相同的值

、

我对R相当陌生，我正在处理一个大的光谱数据集。我想平均每个样品的红色和近红外波长的反射率。使用pivot_wider，我的波长350-2500显示为包含反射率的列.我尝试过(使用dplyr)： pivot_wider(names_from=Wavelength,values_from)%>% mu

浏览 4提问于2022-02-25得票数 0

回答已采纳

3回答

标识和修改数据帧中的列表单元格

、

我使用pivot_wider来传播我的数据。但是，存在重复的行(尽管我仍然不清楚原因)，所以重复的行被存储在“list_columns”中。我现在正在尝试识别哪些单元格已经存储为列表，并且我希望仅用列表中的第一个元素替换这些值。df时，a列中的第一个单元格显示为c("a", "b") (见

浏览 43提问于2020-06-10得票数 2

回答已采纳

2回答

如何根据给定列中的值汇总R数据集？

、

我是R的新手，到目前为止我一直做得还不错，但是我现在需要做一些有点复杂的事情，不能完全让它开始工作。我有一个类似于以下数据集的数据集(接下来我将调用这个df)： "test" = ifelse(word == "test&q

浏览 5提问于2020-06-18得票数 3

回答已采纳

1回答

使用R中的同义词识别近似重复的条目

、、、

我正在尝试识别数据库中接近重复的姓名条目。我是数据库的新手，但我熟悉R。我可以使用模糊匹配和R中的soundex获得近似重复的集群。然而，有几个名称是彼此的同义词。我想根据这个标准和上面的标准对这些名称进行聚类。我想按照中的</e

浏览 2提问于2014-03-14得票数 2

1回答

R数据帧，2列为宽格式，使用spread()或pivot_wider()获取重复/非唯一错误/警告消息

、、

这显然是一个入门级的问题，但似乎表明，我可能缺少一些基本的R如何处理基本水平的数据转换. 注意，我已经阅读了所有其他的信息/回复，但我仍然对为什么不能完成下面这个非常简单的任务感到困惑。有人能至少向我解释一下这里发生了什么，以及如何在警告信息中使用这些选项吗？(在正常情况下，使用3列或更多列非常简单，因此这里缺少了一些东西。)我

浏览 2提问于2021-06-19得票数 0

2回答

添加包含出现次数的列，为每条记录重置

我有行数可变的记录，列A有7个可能的值，它们都是可重复的。我需要一个基于A的新列B，显示每条记录中每个值出现的次数。每条记录中的计数都应该重置。我设法在列A中按字母顺序对每条记录中的行进行排序，但我找不到正确的表达式来进行计数。我只能设法通过所有数

浏览 1提问于2020-07-22得票数 3

1回答

R ggplot2重新排序条块，并在末尾放置一个特定的条块

、

我如何安排这个表，使gg图按“部分”对条形图进行排序，同时将“其他”放在末尾？(我的真实数据集更大，所以我需要一些‘自动’的东西)。8 Banana PROD 0.35 我已经做了几次解释，但是没有人有像我这样的数据集(其中'PART‘是在一个列中，而不

浏览 0提问于2021-03-07得票数 0

1回答

表中数据列的多标签分类

、、、、

我正在寻求关于涉及数据列标记的机器学习问题的指导。目前，我有一个系统，用户可以在这个系统中向表中的列添加多个标记。但是，我想通过使用多标签分类来自动标记新列。通过对列值进行列分析，我从每个列中提取了21个特征。得到的特征将包括统计值，如标准差、最大值、最小值、峰度等。我是否正确地使用这些特征作

浏览 0提问于2018-02-10得票数 3

1回答

多个计算数据集列子集的相关矩阵

、

我正在使用R中的R包对数据集进行多个估算，其中存在大量的缺失。原始数据集中有一些变量对于计算过程和以后的分析非常重要。但是，我想使用cor()创建一个相关矩阵，而不包括一些变量。通常，对于一个简单的dataset x，cor(x[,3:7])会生成第3列到第7列的</

浏览 1提问于2016-03-25得票数 2

3回答

用列内类的平均值替换缺失的值

、、、

我有一个很大的数据集，其中缺少一些值(NAs)。我希望用列平均值替换这些值，但是用类替换为类，也就是说，如果类k中的项在列j中有一个缺失值，则该值将被类k中项的J列中值的平均值所取代。此外，我还想使用基R或dplyr来实现这一点。与已经在这里回答的著名问题相比，类<

浏览 8提问于2020-05-01得票数 1

回答已采纳

1回答

两组大规模比较

、、、、

Supplier_id和" status“(pass和fail是状态列的值)这两个数据集通过标识符列链接。然而，我们的目标是找

浏览 0提问于2022-04-06得票数 0

1回答

不移除重复项的Pivot_wider

、、

我想使用pivot_wider，目标是通过保持重复的值分开，结果列的数量等于旋转的行数。为此，我需要通过GroupID和groupTheme扩展数据集。我想每人一排。注意，每一组人对“委员会”的意见都是重复的。对于原始数据集中的每个“名称”，都是这样的。这是因为在所有行中，G

浏览 3提问于2022-05-22得票数 0

回答已采纳

2回答

如何使用来自两个XTS的数据来创建新的XTS？

、、

)x2015-01-02 1 22015-01-06 3 6和2015-01-02 "a"a b2015-0

浏览 6提问于2019-11-19得票数 0

点击加载更多