Loading [MathJax]/jax/output/CommonHTML/config.js

开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >迭代地获取数据帧列的最大值，添加1，然后对r中的所有行重复

问迭代地获取数据帧列的最大值，添加1，然后对r中的所有行重复
EN

Stack Overflow用户

提问于 2021-06-28 20:17:35

回答 2查看 42关注 0票数 1

我需要执行一个数据库操作，将新数据添加到现有表中，然后为新行分配一个惟一的id。我在R中询问这一点，这样在尝试用sql或pyspark重写它之前，我可以弄清楚逻辑。

假设我已经将新数据添加到现有数据中。下面是它可能看起来的简化版本：

library(tidyverse)

df <- tibble(id = c(1, 2, 3, NA, NA),
             descriptions = c("dodgers", "yankees","giants", "orioles", "mets"))

# A tibble: 5 x 2
     id descriptions
  <dbl> <chr>       
1     1 dodgers     
2     2 yankees     
3     3 giants      
4    NA orioles     
5    NA mets

我想要的是：

# A tibble: 5 x 2
     id descriptions
  <dbl> <chr>       
1     1 dodgers     
2     2 yankees     
3     3 giants      
4     4 orioles     
5     5 mets

A我不能使用带有rowid_to_columns id的arrange被删除。

为了在不更改现有行的情况下获得NA行的唯一id，我想获取id列的最大值，添加1，用该值替换NA，然后移到下一行。我的直觉是这样做的：df %>% mutate(new_id = max(id, na.rm = TRUE) + 1)，但这只是最大值加1，而不是每行新的最大值。我觉得我可以用一个映射函数来做到这一点，但我尝试返回的结果与输入数据帧相同：

df %>% 
  mutate(id = ifelse(is.na(id),
                     map_dbl(id, ~max(.) + 1, na.rm = FALSE),
                     id))

# A tibble: 5 x 2
     id descriptions
  <dbl> <chr>       
1     1 dodgers     
2     2 yankees     
3     3 giants      
4    NA orioles     
5    NA mets

提前感谢--现在如果有人可以直接用sql帮助我，那也是一个加分！

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2021-06-28 20:27:33

下面是一种方法，其中我们基于NA值将max值与逻辑向量的累积和相加，并将coalesce与原始列'id‘相加

library(dplyr)
df <- df %>% 
   mutate(id =  coalesce(id, max(id, na.rm = TRUE) + cumsum(is.na(id))))

-output

df
# A tibble: 5 x 2
     id descriptions
  <dbl> <chr>       
1     1 dodgers     
2     2 yankees     
3     3 giants      
4     4 orioles     
5     5 mets

票数 1

EN

Stack Overflow用户

发布于 2021-06-28 20:31:46

SQL选项，使用sqldf进行演示：

sqldf::sqldf("
  with cte as (
    select max(id) as maxid from df
  )
  select cte.maxid + row_number() over () as id, df.descriptions
  from df
    left join cte where df.id is null
  union
  select * from df where id is not null")
#   id descriptions
# 1  1      dodgers
# 2  2      yankees
# 3  3       giants
# 4  4      orioles
# 5  5         mets

票数 2

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/68169540

复制

相关文章

使用VBA删除工作表多列中的重复行

自Excel 2010发布以来，已经具备删除工作表中重复行的功能，如下图1所示，即功能区“数据”选项卡“数据工具——删除重复值”。

fanjy

2022/11/16

11.4K0

使用VBA删除工作表多列中的重复行

用过Excel，就会获取pandas数据框架中的值、行和列

python 编程算法

至此，我们已经学习了使用Python pandas来输入/输出（即读取和保存文件）数据，现在，我们转向更深入的部分。

fanjy

2021/11/29

19.2K0

用过Excel，就会获取pandas数据框架中的值、行和列

Numpy中找出array中最大值所对应的行和列

Python特别灵活，肯定方法不止一种，这里介绍一种我觉得比较简单的方法。如下图，使用x == np.max(x) 获得一个掩模矩阵，然后使用where方法即可返回最大值对应的行和列。 where返回一个长度为2的元组，第一个元素保存的是行号，第二个元素保存的是列号。

卡尔曼和玻尔兹曼谁曼

2019/01/22

6.4K0

Numpy中找出array中最大值所对应的行和列

问与答63：如何获取一列数据中重复次数最多的数据？

Q：如下图1所示，在工作表列A中有很多数据（为方便表述，示例中只放置了9个数据），这些数据中有很多重复数据，我想得到重复次数最多的数据是那个，示例中可以看出是“完美Excel”重复的次数最多，如何获得这个数据？

fanjy

2019/08/20

3.6K0

问与答63：如何获取一列数据中重复次数最多的数据？

SQL 获取一行中多个字段的最大值

数据库自动驾驶云数据库 SQL Server sql 编程算法

在 chaos(id,v1,v2,v3) 表中获取每个 id 对应的 v1、v2、v3 字段的最大值，v1、v2、v3 同为数值类型。

白日梦想家

2020/12/14

11.5K0

pandas中的loc和iloc_pandas获取指定数据的行和列

https java 网络安全 python

发布者：全栈程序员栈长，转载请注明出处：https://javaforall.cn/178799.html原文链接：https://javaforall.cn

全栈程序员站长

2022/09/27

10.3K0

pandas中的loc和iloc_pandas获取指定数据的行和列

VBA：根据指定列删除重复行

vba http python

文章背景：在工作生活中，有时需要进行删除重复行的操作。比如样品测试时，难免存在复测数据，一般需要删除第一行数据，保留后一行的数据。

Exploring

2022/09/20

3.2K0

VBA：基于指定列删除重复行

vba https 网络安全

文章背景：在工作生活中，有时需要进行删除重复行的操作。比如样品测试时，难免存在复测数据，一般需要保留最后测试的数据。之前通过拷贝行的方式保留最后一行的数据（参见文末的延伸阅读1），但运行效率较低。目前通过借助数组和字典达到删除重复行的效果。

Exploring

2022/12/18

3.4K0

获取页面所有a标签并对其添加title属性

今天公司需要做seo优化，添加所有的a标签上面添加title属性。前台在一个一个的添加，我发现了就建议他使用js获取所有的a然后增加属性即可～～（收藏了） <script type=”text/javascript”> $(function(){ for(i=0;i<$(“a”).length;i++) { var a_content=$(“a:eq(“+i+”)”).text(); $(“a:eq(“+i+”)”).attr(‘title‘,a_content); } }); </scrip

苦咖啡

2018/05/08

4.2K0

R语言指定列取交集然后合并多个数据集的简便方法

因为5份数据集以csv格式存储，首先就是获得存储路径下所有的csv格式文件的文件名，用到的命令是

用户7010445

2020/12/18

7.1K0

扩展UltraGrid控件实现对所有数据行的全选功能[Source Code下载]

html 编程算法

在前面一篇文章中，我通过对三种Infragistics 控件（UltraToolBarManager、UltraGird和UltraListView）进行扩展，以实现对ToolTip样式的定义，今天我

蒋金楠

2018/01/16

1.5K0

扩展UltraGrid控件实现对所有数据行的全选功能[Source Code下载]

Linux 删除文本中的重复行

这里我做了个简单的测试，当file中的重复行不再一起的时候，uniq将服务删除所有的重复行。经过排序后，所有相同的行都在相邻，因此unqi可以正常删除重复行。

阳光岛主

2019/02/19

8.6K0

获取GridView中的某列值

protected void GridView1_RowEditing(object sen

Java架构师必看

2021/03/22

10.2K0

【Python】基于某些列删除数据框中的重复值

Python按照某些列去重，可用drop_duplicates函数轻松处理。本文致力用简洁的语言介绍该函数。

阿黎逸阳

2020/09/08

20.6K0

【Python】基于某些列删除数据框中的重复值

SQL中的行转列和列转行

SQL是IT行业很多岗位都要求具备的一项能力，对于数据岗位而言更是如此，甚至说扎实的SQL基础也往往是入职这些岗位的必备技能。而在SQL面试中，一道出镜频率很高的题目就是行转列和列转行的问题，可以说这也是一道经典的SQL题目，本文就这一问题做以介绍分享。

luanhz

2021/06/25

7.2K0

SQL 中的行转列和列转行

sql sql server 数据库数据分析费用中心

行转列，列转行是我们在开发过程中经常碰到的问题。行转列一般通过CASE WHEN 语句来实现，也可以通过 SQL SERVER 的运算符PIVOT来实现。用传统的方法，比较好理解。层次清晰，而且比较习惯。但是PIVOT 、UNPIVOT提供的语法比一系列复杂的SELECT…CASE 语句中所指定的语法更简单、更具可读性。下面我们通过几个简单的例子来介绍一下列转行、行转列问题。

玖柒的小窝

2021/11/08

5.5K0

【说站】excel筛选两列数据中的重复数据并排序

如果靠人眼来一个个的对比excel的两列数据来去重的话，数据量少还能勉强对比一下，如果几千、几万条数据肯定就需要进行程式化处理，excel对于这个问题给我们提供了很方便的解决方案，这里主要用到excel的“条件格式”这个功能来筛选对比两列数据中心的重复值，并将两列数据中的相同、重复的数据按规则进行排序方便选择，甚至是删除。

很酷的站长

2022/11/24

10.5K1

【说站】excel筛选两列数据中的重复数据并排序

点击加载更多

相似问题

迭代地获得数据帧列的最大值，添加一个并对spark/sql中的所有行重复

12

在R中，如何获取数据帧的列的子集，然后消除重复的行？

10

R数据帧从所有列中删除具有最大值的行。

20

在数据帧(R)的所有列中删除具有重复值的行

10

根据R中数据帧的1列复制行

13

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例