腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
有条件
地
删除
spark
数据
集中
的
重复
行
、
但对于我想要实现
的
目标,这是行不通
的
。以某种方式,我们必须根据列_2来检测
重复
项,然后必须
删除
_1中带有z条目的always the
行
,并将其_3值添加到保留
的
_3列。 提前谢谢你。
浏览 1
提问于2017-07-13
得票数 0
2
回答
删除
在dataframe中两列
重复
的
对象
、
、
、
、
我有一个这样
的
数据
框架: ? CSV文件中
的
数据
集是here。 此
数据
是从IMDb
数据
集中
提取
的
。但是我有一个问题,我无法
删除
在同一
行
中
重复
的
演员
的
名字,例如在第4
行
中,我想在姓名和演员列中
删除
'Marie Gruber‘。我尝试使用and来应用所
有条件
,但代码始终认为它是相同
的
浏览 51
提问于2021-09-20
得票数 1
回答已采纳
1
回答
有条件
地
删除
重复
的
pandas python
、
、
、
、
有没有办法
有条件
地
在大约10列和400,000
行
的
pandas
数据
框中
删除
重复
项(特别是使用drop_duplicates )?也就是说,我希望所有有2列
的
行都满足一个条件:如果date (column)和store (column) #
的
组合是唯一
的
,则保留
行
,否则
删除
。
浏览 1
提问于2015-05-03
得票数 8
1
回答
在python中使用pandas过滤掉
重复
项列表中
的
NaN
、
、
、
、
其中几行是关于相同
的
房地产,所以它充满了不完全相同
的
重复
项。它看起来是这样
的
: ID URL CRAWL_SOURCE PROPERTY_TYPE NEW_BUILD DESCRIPTION IMAGES SURFACE LAND_SURFACE我使用python中
的
pandas对
数据
集进行了分组,在DESCRIPTION列上创建了
重复
项
的
列表。但是,如列表末尾所示,它也在NaN上分组。如何过滤掉它们?Levallois-Pe
浏览 14
提问于2019-09-16
得票数 0
2
回答
根据Java列上
的
自定义函数在
Spark
中
删除
重复
行
、
、
、
我试图在中
删除
数据
集中
的
副本,在Java中使用。我
的
数据
集有三列。假设列
的
名称是name, timestamp, and score。--> 10John --> 1595239200000 --> 10 注意,在上面的
数据
集中
,第一
行
和第四
行
是相同
的
我想要
的</e
浏览 15
提问于2020-07-20
得票数 0
回答已采纳
3
回答
删除
spark
数据
帧中
重复
的
所有记录
、
、
、
、
我有一个包含多个列
的
spark
数据
帧。我想找出并
删除
列中有
重复
值
的
行
(其他列可以是不同
的
)。我尝试使用dropDuplicates(col_name),但它只
删除
重复
的
条目,但仍然在
数据
帧中保留一条记录。我需要
的
是
删除
所有最初包含
重复
条目的条目。我使用
的
是
Spark
1.6和Scala 2.1
浏览 4
提问于2018-04-10
得票数 5
回答已采纳
1
回答
筛选火花
数据
集
、
、
在火花会议上 .builder() .config("
spark
.some.config.option", "some-value")从
数据
集中
val coords=
浏览 4
提问于2022-07-21
得票数 2
回答已采纳
1
回答
Server查询以隐藏
重复
行列
数据
。不想
删除
重复
行
、
、
、
Server查询以隐藏
重复
行列
数据
。不想
删除
重复
行
。
有条件
地
将
数据
显示为空白。Ledger],from 我得到了这个输出:但是,我需要这种格式
的
输出:在第二个打印屏幕上,我不显示Vch、Date、Party Name、Sales Ledger、Amt和Total
的
浏览 5
提问于2017-08-01
得票数 1
回答已采纳
3
回答
R,
有条件
地
删除
重复
行
、
、
我在R中有一个
数据
帧,包含列ID.A、ID.B和DISTANCE,其中distance表示ID.A和ID.B之间
的
距离。对于ID.A
的
每个值(1->n),可以有多个ID.B和distance值(即,在ID.A中可能有多个
重复
的
行
,例如,值为4
的
所有行在该行中都有不同
的
ID.B和distance )。我希望能够
删除
ID.A
重复
的
行
,但条件是距离值,这样我就可以为每个ID.A记录
浏览 0
提问于2012-05-31
得票数 9
2
回答
如何
有条件
地
替换Apache
Spark
数据
集中
的
值?
、
、
我有这个
数据
集:| Name|Order|Orbiting| Habitable|No|+-------+-----+--------+--------------------+ "Sol",
浏览 6
提问于2018-02-19
得票数 0
3
回答
有条件
地
移除
重复
、
、
、
我有一个
数据
集,需要根据另一列中
的
值
有条件
地
删除
重复
的
行
。size<-c(0, 1, 1, 2, 3, 0, 0, 1, 0) da
浏览 3
提问于2017-09-08
得票数 1
回答已采纳
2
回答
从
数据
帧中
有条件
地
删除
重复
行
、
、
、
我在R中有一个
数据
框架,由两列组成:“基因”和“表达”。对于某些基因,它有
重复
的
行
,但是这些
重复
的
条目有不同
的
表达值。我想压缩
重复
的
行
,这样每一个基因只有一
行
,并且这一
行
具有最大
的
“绝对”表达式值。例如,见下文:2 MYC 64 TP53 -3
浏览 1
提问于2015-03-13
得票数 1
回答已采纳
1
回答
在pySpark中
删除
重复
项
的
最佳方法
、
、
我正在尝试通过对几个列使用dropDuplicates()来
删除
spark
数据
帧中
的
重复
项。但是由于大量
的
混洗和
数据
倾斜,作业被挂起了。为此,我使用了5个内核和30 do
的
内存。我正在执行dropDuplicates()
的
数据
大约是1,200万
行
。 考虑到
数据
倾斜和混洗,请给我建议在
spark
中
删除
重复
项
的
最优
浏览 0
提问于2018-09-25
得票数 0
1
回答
Spark
删除
重复
项并选择具有最大值
的
行
、
、
我正在尝试
删除
基于column1
的
重复
项,并选择column2中具有最大值
的
行
。column2
的
值为"year"(2019,2020等),类型为"String“。我
的
解决方案是,将第2列转换为整数,并选择最大值。 Dataset<Row> ds ; //The dataset with column1,column2(year), column3 etc.newDs = newDs.groupBy(&quo
浏览 0
提问于2020-11-18
得票数 0
1
回答
Java
Spark
删除
重复
项/空值并保留顺序
、
我有下面的Java
Spark
数据
集/dataframe。 Col_1 Col_2 Col_3 ...A 1 1B 2 2C 1 NULL 这个
数据
集中
有将近25列,我必须
删除
那些在Col_1上
重复
的
记录。如果第二个记录为NULL,则必须
删除
NULL (如COl_1 = A),如果有多个有效值(如Col_1 =B),则每次只应保留
浏览 17
提问于2020-11-25
得票数 0
回答已采纳
2
回答
Scala:如何合并两个
数据
帧?
、
、
Name ID2 Marks第二个Df2是:1 3 989我需要
的
输出是
浏览 0
提问于2018-03-01
得票数 5
回答已采纳
2
回答
删除
dataframe python
的
重复
行
我需要从
数据
集中
删除
重复
的
行
。基本上,我应该表演我需要
删除
重复
项,并将这些
重复
行
保存在单独
的
dataframe中。
浏览 53
提问于2017-07-07
得票数 0
回答已采纳
1
回答
从
Spark
中
的
元组
数据
集中
删除
重复
项
、
、
、
我在
删除
元组
数据
集Dataset[(LeftDs, RightDs)]中
的
重复
行时遇到了问题 尝试连接两个
数据
集,如下所示: val comparableDs = leftDs.joinWith(rightDs,) 我想
删除
两个字段
的
重复
项: val resultDsname"
浏览 13
提问于2019-01-17
得票数 1
回答已采纳
1
回答
按组
有条件
地
删除
重复
行
、
、
我有一个调查,我
的
数据
看起来像这样: dt<-structure(list(ID = c("183577", "183577", "183907", "183907", "184188", "184188然而,对于这些问题中
的
一些,我有另一
行
包含个人
的
答案,其中该行采用非缺失值(例如,部分,是,否)。 我想
删除
所有
重复
的
行</e
浏览 11
提问于2021-10-25
得票数 0
回答已采纳
2
回答
有条件
地
删除
重复
行
-啄顺序
,否则C必须从B_y为空
的
行
中选择(空白是通配符)。我应该为每一个A找到一个独特
的
行
(在哪里可以找到匹配
的
)。我
的
方法:我尝试了以下几点。False]) | df.apply(lambda x: x.B_x in x.B_y, axis=0) | df.apply(lambda x: x.B_y='', axis=0)] 这将使具有B_y值
的
行
与空白
的
行
(通配符)匹配值'GBP、美元、E
浏览 1
提问于2020-07-03
得票数 2
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券