腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
在
pyspark
中
随
时间
窗口
删除
重复
项
、
我有一个从kafka主题中读取的spark流数据帧,我想在每次解析新记录时
删除
过去5分钟的
重复
数据。我知道dropDuplicates(["uid"])函数,但我不确定如何在特定的历史
时间
间隔内检查
重复
项
。有没有办法使用数据
中
的"timestamp"列来设置此
重复
数据消除的
时间
? 提前谢谢。
浏览 31
提问于2020-04-21
得票数 0
回答已采纳
1
回答
使用Spark structured streaming仅保留最新数据
、
、
、
更喜欢使用
Pyspark
浏览 23
提问于2021-09-22
得票数 1
1
回答
apache fink 0.10使用
时间
窗口
清除
在
无限数据流上过滤
重复
数据
、
如何通过
时间
窗口
清除来过滤无限流
中
的
重复
项
?我没有无限的空间/内存,我知道
在
2秒后(
在
本地时钟上),任何可能发生的
重复
都会发生。这意味着
在
2秒之后,我可以丢弃(清除)旧数据。使用
时间
窗口
清除
在
无限数据流上过滤
重复
项
。 关于如何
删除
这个问题中的
重复
项
,我得到了一个很好的答案(非常感谢T
浏览 0
提问于2016-02-24
得票数 3
1
回答
数据流不同转换示例
、
、
、
在
我的数据流管道
中
,我尝试使用来减少
重复
项
。我想最初尝试将此应用于固定的1分钟
窗口
,并使用另一种方法来处理
窗口
之间的
重复
。如果1分钟
窗口
是实时/处理
时间
,则后一点可能工作得最好。我像这样设置了
窗口
和不同的转换: .<String>
浏览 0
提问于2019-08-08
得票数 0
2
回答
为什么groupBy()比
pyspark
中
的distinct()快得多?
当我用groupBy()替换spark数据帧上的distinct()时,我
在
我的
pyspark
代码中看到了很大的性能改进。但是我不能理解背后的原因。整个意图是从数据帧
中
删除
行级
重复
项
。我尝试
在
谷歌上搜索groupBy()和distinct()
在
pyspark
中
的实现,但没有找到。 有没有人能给我解释一下或者给我指出正确的方向?
浏览 0
提问于2018-09-11
得票数 6
1
回答
按行
删除
星火RDD
中
的
重复
、
、
、
我正在使用做一些工作,并有一个包含在每一行
中
的
重复
事务示例的rdd。这将导致模型训练函数因这些
重复
项
而引发错误。我对Spark相当陌生,我想知道如何
删除
rdd行
中
的
重复
项
。例如: from
pyspark
.mllib.fpm import FPGrowth data = [["a", "a", "b", "c&qu
浏览 2
提问于2016-09-06
得票数 0
回答已采纳
3
回答
根据列的最大值
在
Excel中有条件地去重
、
、
、
我
在
Excel中有一个由两列组成的数据,看起来像这样:第一列是一个值,第二列包含一个相应的单词。但是,我希望
删除
此数据集中的行,这样,最后,对于第二列
中
的每个唯一字,只保留列一
中
的值是该字的最大值的一行,甚至
删除
那些具有每个唯一字的最大值的
重复
的行,并为每个唯一字保留一行。我一直
在
尝试
在
Mac2011的Excel中使用advanced filtering,但我似乎不能包括
删除
所有
重复
条目的条件,除了
在</em
浏览 2
提问于2015-04-20
得票数 2
回答已采纳
2
回答
如何从
PySpark
数据帧
中
删除
重复
项
并将剩余列值更改为null
、
、
、
我是新来
Pyspark
的。我有一个
Pyspark
dataframe,我想根据id和
时间
戳列
删除
重复
项
。然后,我想将
重复
id的读取值替换为null。我不想用熊猫。2 16700 2018-03-22 09:00:00.000 2 18000 2018-03-22 10:00:00.000 如何添加到此代码
中
:
浏览 13
提问于2020-01-08
得票数 2
回答已采纳
1
回答
在
pySpark
中
删除
重复
项
的最佳方法
、
、
我正在尝试通过对几个列使用dropDuplicates()来
删除
spark数据帧
中
的
重复
项
。但是由于大量的混洗和数据倾斜,作业被挂起了。为此,我使用了5个内核和30 do的内存。考虑到数据倾斜和混洗,请给我建议
在
spark
中
删除
重复
项
的最优方法。
浏览 0
提问于2018-09-25
得票数 0
3
回答
如何从RDD[
PYSPARK
]
中
删除
重复
的值
、
、
我有以下表格作为RDD:1 y1 y1 n2 n我想从Value
中
删除
所有的
重复
项
。输出应如下所示:1 y2 y
在
pyspark
中
工作时,输出应该是如下所示的键值对列表: [(u'1',u'n'),(u'2',u'n'
浏览 4
提问于2014-09-18
得票数 14
回答已采纳
2
回答
去掉数组元素
中
的子串,
重复
pyspark
、
、
、
我有一个
pyspark
数据帧:----------------------------------------------------------------------------------------
在
matricule数组
中
,如果我
删除
AZ字符串,我会有<e
浏览 28
提问于2020-02-26
得票数 2
回答已采纳
1
回答
在
Azure Service Bus队列
中
检测相同的未处理消息
、
、
基于ERP
中
的某些触发器(例如价目表更改),我们将把所有受影响的客户编号放入一个队列
中
,而一个侦听该队列的Azure函数将重新计算该特定客户的价格。 示例:对价目表进行更改后,用户单击保存。3000个客户受此更改影响,并被添加到计算队列
中
。如果计算需要2秒,并且我们可以并行进行10次计算,则3000*2/10=600秒后将完成最后一个客户的价格。当客户编号
在
队列中等待时,用户执行另一
项
更改并单击Save。在这种情况下,我们希望排除添加队列
中
已经存在的所有客户编号。问: Azur
浏览 1
提问于2020-04-23
得票数 0
1
回答
从数组
中
删除
重复
项
并递增一个值
、
、
我正在尝试写一个脚本,将产生一个简单的概述,
在
一个订单列表。[3] => quantity (an integer) etc.我想要做的是检查密钥和1的位置,即具有相同选项的相同产品,并
删除
重复
项
同时,我希望值3
随
被
删除
的数组
中
的数字递增。为了简单起见,我想在产品和选项匹配的地方合并value 3。我已经考虑了很长一段
时间
,但不知道该怎么做。有什么建议吗?
浏览 0
提问于2010-11-25
得票数 1
回答已采纳
3
回答
列的第一次出现
、
、
我想使用
pyspark
创建基于输入的新数据,
在
输入
中
打印出每个不同值列的第一次出现。行号()将工作或
窗口
()。不确定最好的方式接近这一点,或将火花是最好的。基本上,第二个表就是我希望输出的地方,它只是输出输入
中
的值列的第一次出现。我只对"value“列的第一次出现感兴趣。如果一个值被
重复
,则只显示所看到的第一个值。
浏览 3
提问于2022-05-15
得票数 1
回答已采纳
1
回答
从
PySpark
数组列
中
删除
重复
项
、
、
、
我有一个
PySpark
Dataframe,它包含一个ArrayType(StringType())列。此列包含需要
删除
的数组
中
的
重复
字符串。df.withColumn("arraycol_without_dupes", F.remove_dupes_from_array("arraycol")) 我的直觉是,这有一个简单的解决方案,但是
在
浏览堆栈溢出15分钟之后,我没有发现比爆炸列、
删除
完整数据帧上的
重复
项
、然
浏览 1
提问于2019-01-14
得票数 2
回答已采纳
1
回答
触发和
窗口
化python光束过程的最佳方式
、
、
、
我以前从来没有用过beam,整个触发器和
窗口
的东西让我有点困惑。我需要写一个在数据流上运行的程序,并从谷歌存储
中
读取如下路径:<code>D0</code> (我有多个from节点,每个节点的表名都相同,每个
时间
戳都有一个文件)文件也不断地上传到那里。(我喜欢避免使用pubsub,因为我
在
一家小公司工作,收入更高……) 现在,由于有多个节点,文件
中
可能有一些
重复
项
,所以我确实希望按
时间
戳对它们进行分组,根据我所读到的内
浏览 20
提问于2021-06-14
得票数 2
2
回答
Pyspark
删除
重复
的base 2列
、
我
在
pyspark
中有了下一个df: +---------+----------+--------+-----+----------+------++---------+----------+--------+-----+----------+------+ 我需要
删除
浏览 42
提问于2021-10-25
得票数 0
回答已采纳
3
回答
从
PySpark
中
的数据
中
删除
重复
项
、
、
、
我
在
本地使用pyflem1.4
中
的dataframes,并且
在
让dropDuplicates方法工作时遇到了问题。它不断地返回错误: 不太确定为什么,因为我似乎遵循
中
的语法。
浏览 2
提问于2015-06-26
得票数 25
回答已采纳
1
回答
在
pyspark
RDD中保存
删除
的
重复
项
、
从这里,Removing duplicates from rows based on specific columns in an RDD/Spark DataFrame,我们学习了如何根据一些特定的变量
删除
重复
的观测值如果我想以RDD的形式保存这些
重复
的观测值,我该怎么做?我猜如果rdd.substract()包含数十亿个观察值,那么RDD的效率可能会很低。
浏览 18
提问于2019-09-18
得票数 0
1
回答
如何用Azure服务总线测试
重复
检测
我使用Azure服务总线启用了
重复
检测。我已将“
重复
检测”
窗口
设置为20秒,请参阅图像。但是,当我用
重复
的消息进行测试时,我会一直看到消息的出现。
浏览 2
提问于2022-03-14
得票数 0
回答已采纳
点击加载更多
相关
资讯
在Word中如何快速删除重复内容?
删除数据重复项,Excel中的这3种方法简单高效
wps中删除重复列的图文教程
一个Python大数据处理利器:PySpark入门指南
一文读懂PySpark数据框
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券