无法在Pyspark中的许多列中进行聚合。有数百个布尔列显示系统的当前状态,每秒钟添加一行。目标是转换这些数据,以显示每10秒窗口的状态更改数。我计划分两个步骤来完成这一任务,首先是使用上一行值的XOR布尔值,然后是10秒窗口上的第二个求和。data_window,Spark生成52个阶段,每个阶段依赖于最后一个阶段。将每一行与最后一行进行比较,然后聚合10秒。删除data_window parti
假设我有以下模式的5 TB数据,并且我使用的是Pyspark。对我来说,一个选择是使用window。例如,我可以import pyspark.sql.functions as F
w = Window.partitionBy("id",但我不知道如何选择每个窗口的最后一行。有没有人有任何建议,或者是否有更好的方法进行汇总?