在pyspark中随时间窗口删除重复项

文章/答案/技术大牛

发布

1回答

、

我有一个从kafka主题中读取的spark流数据帧，我想在每次解析新记录时删除过去5分钟的重复数据。我知道dropDuplicates(["uid"])函数，但我不确定如何在特定的历史时间间隔内检查重复项。有没有办法使用数据中的"timestamp"列来设置此重复数据消除的时间？提前谢谢。

浏览 31提问于2020-04-21得票数 0

回答已采纳

1回答

使用Spark structured streaming仅保留最新数据

、、、

更喜欢使用Pyspark

浏览 23提问于2021-09-22得票数 1

1回答

apache fink 0.10使用时间窗口清除在无限数据流上过滤重复数据

、

如何通过时间窗口清除来过滤无限流中的重复项？我没有无限的空间/内存，我知道在2秒后(在本地时钟上)，任何可能发生的重复都会发生。这意味着在2秒之后，我可以丢弃(清除)旧数据。使用时间窗口清除在无限数据流上过滤重复项。关于如何删除这个问题中的重复项，我得到了一个很好的答案(非常感谢T

浏览 0提问于2016-02-24得票数 3

1回答

数据流不同转换示例

、、、

在我的数据流管道中，我尝试使用来减少重复项。我想最初尝试将此应用于固定的1分钟窗口，并使用另一种方法来处理窗口之间的重复。如果1分钟窗口是实时/处理时间，则后一点可能工作得最好。我像这样设置了窗口和不同的转换： .<String>

浏览 0提问于2019-08-08得票数 0

2回答

为什么groupBy()比pyspark中的distinct()快得多？

当我用groupBy()替换spark数据帧上的distinct()时，我在我的pyspark代码中看到了很大的性能改进。但是我不能理解背后的原因。整个意图是从数据帧中删除行级重复项。我尝试在谷歌上搜索groupBy()和distinct()在pyspark中的实现，但没有找到。有没有人能给我解释一下或者给我指出正确的方向？

浏览 0提问于2018-09-11得票数 6

1回答

按行删除星火RDD中的重复

、、、

我正在使用做一些工作，并有一个包含在每一行中的重复事务示例的rdd。这将导致模型训练函数因这些重复项而引发错误。我对Spark相当陌生，我想知道如何删除rdd行中的重复项。例如： from pyspark.mllib.fpm import FPGrowth data = [["a", "a", "b", "c&qu

浏览 2提问于2016-09-06得票数 0

回答已采纳

3回答

我在Excel中有一个由两列组成的数据，看起来像这样:第一列是一个值，第二列包含一个相应的单词。但是，我希望删除此数据集中的行，这样，最后，对于第二列中的每个唯一字，只保留列一中的值是该字的最大值的一行，甚至删除那些具有每个唯一字的最大值的重复的行，并为每个唯一字保留一行。我一直在尝试在Mac2011的Excel中使用advanced filtering，但我似乎不能包括删除所有重复条目的条件，除了在</em

浏览 2提问于2015-04-20得票数 2

回答已采纳

2回答

如何从PySpark数据帧中删除重复项并将剩余列值更改为null

、、、

我是新来Pyspark的。我有一个Pyspark dataframe，我想根据id和时间戳列删除重复项。然后，我想将重复id的读取值替换为null。我不想用熊猫。2 16700 2018-03-22 09:00:00.000 2 18000 2018-03-22 10:00:00.000 如何添加到此代码中：

浏览 13提问于2020-01-08得票数 2

回答已采纳

1回答

在pySpark中删除重复项的最佳方法

、、

我正在尝试通过对几个列使用dropDuplicates()来删除spark数据帧中的重复项。但是由于大量的混洗和数据倾斜，作业被挂起了。为此，我使用了5个内核和30 do的内存。考虑到数据倾斜和混洗，请给我建议在spark中删除重复项的最优方法。

浏览 0提问于2018-09-25得票数 0

3回答

如何从RDD[PYSPARK]中删除重复的值

、、

我有以下表格作为RDD：1 y1 y1 n2 n我想从Value中删除所有的重复项。输出应如下所示：1 y2 y在pyspark中工作时，输出应该是如下所示的键值对列表： [(u'1',u'n'),(u'2',u'n'

浏览 4提问于2014-09-18得票数 14

回答已采纳

2回答

去掉数组元素中的子串，重复pyspark

、、、

我有一个pyspark数据帧：---------------------------------------------------------------------------------------- 在matricule数组中，如果我删除AZ字符串，我会有<e

浏览 28提问于2020-02-26得票数 2

回答已采纳

1回答

在Azure Service Bus队列中检测相同的未处理消息

、、

基于ERP中的某些触发器(例如价目表更改)，我们将把所有受影响的客户编号放入一个队列中，而一个侦听该队列的Azure函数将重新计算该特定客户的价格。示例:对价目表进行更改后，用户单击保存。3000个客户受此更改影响，并被添加到计算队列中。如果计算需要2秒，并且我们可以并行进行10次计算，则3000*2/10=600秒后将完成最后一个客户的价格。当客户编号在队列中等待时，用户执行另一项更改并单击Save。在这种情况下，我们希望排除添加队列中已经存在的所有客户编号。问: Azur

浏览 1提问于2020-04-23得票数 0

1回答

从数组中删除重复项并递增一个值

、、

我正在尝试写一个脚本，将产生一个简单的概述，在一个订单列表。[3] => quantity (an integer) etc.我想要做的是检查密钥和1的位置，即具有相同选项的相同产品，并删除重复项同时，我希望值3随被删除的数组中的数字递增。为了简单起见，我想在产品和选项匹配的地方合并value 3。我已经考虑了很长一段时间，但不知道该怎么做。有什么建议吗？

浏览 0提问于2010-11-25得票数 1

回答已采纳

3回答

列的第一次出现

、、

我想使用pyspark创建基于输入的新数据，在输入中打印出每个不同值列的第一次出现。行号()将工作或窗口()。不确定最好的方式接近这一点，或将火花是最好的。基本上，第二个表就是我希望输出的地方，它只是输出输入中的值列的第一次出现。我只对"value“列的第一次出现感兴趣。如果一个值被重复，则只显示所看到的第一个值。

浏览 3提问于2022-05-15得票数 1

回答已采纳

1回答

从PySpark数组列中删除重复项

、、、

我有一个PySpark Dataframe，它包含一个ArrayType(StringType())列。此列包含需要删除的数组中的重复字符串。df.withColumn("arraycol_without_dupes", F.remove_dupes_from_array("arraycol")) 我的直觉是，这有一个简单的解决方案，但是在浏览堆栈溢出15分钟之后，我没有发现比爆炸列、删除完整数据帧上的重复项、然

浏览 1提问于2019-01-14得票数 2

回答已采纳

1回答

触发和窗口化python光束过程的最佳方式

、、、

我以前从来没有用过beam，整个触发器和窗口的东西让我有点困惑。我需要写一个在数据流上运行的程序，并从谷歌存储中读取如下路径：<code>D0</code> (我有多个from节点，每个节点的表名都相同，每个时间戳都有一个文件)文件也不断地上传到那里。(我喜欢避免使用pubsub，因为我在一家小公司工作，收入更高……) 现在，由于有多个节点，文件中可能有一些重复项，所以我确实希望按时间戳对它们进行分组，根据我所读到的内

浏览 20提问于2021-06-14得票数 2

2回答

Pyspark删除重复的base 2列

、

我在pyspark中有了下一个df： +---------+----------+--------+-----+----------+------++---------+----------+--------+-----+----------+------+ 我需要删除

浏览 42提问于2021-10-25得票数 0

回答已采纳

3回答

从PySpark中的数据中删除重复项

、、、

我在本地使用pyflem1.4中的dataframes，并且在让dropDuplicates方法工作时遇到了问题。它不断地返回错误：不太确定为什么，因为我似乎遵循中的语法。

浏览 2提问于2015-06-26得票数 25

回答已采纳

1回答

在pyspark* RDD中保存删除的重复项*

、

从这里，Removing duplicates from rows based on specific columns in an RDD/Spark DataFrame，我们学习了如何根据一些特定的变量删除重复的观测值如果我想以RDD的形式保存这些重复的观测值，我该怎么做？我猜如果rdd.substract()包含数十亿个观察值，那么RDD的效率可能会很低。

浏览 18提问于2019-09-18得票数 0

1回答

如何用Azure服务总线测试重复检测

我使用Azure服务总线启用了重复检测。我已将“重复检测”窗口设置为20秒，请参阅图像。但是，当我用重复的消息进行测试时，我会一直看到消息的出现。

浏览 2提问于2022-03-14得票数 0

回答已采纳

点击加载更多