我想执行具有窗口期的结构化流聚合。给定以下数据模式。目标是根据用户过滤最新发生的事件。然后汇总每个位置的每种事件类型的计数。type")) as 'countOne, count(when($"type" === "two", $"type" as 'countTwo)))因为结构化流式传输不支持多个聚合
我需要编写带有内部选择和分区的Spark查询。问题是我有AnalysisException。我已经花了几个小时在这个问题上,但是用其他的方法我没有成功。例外:
Exception in thread "main" org.apache.spark.sql.AnalysisException: Non-time-based windows are notwantedTemperature#31, CASE WHEN (status#29 = cast(false as boolean)) THEN 1 ELSE 0 END
我在DataFrame中有3列:- time:TimeStamp,col1:Double,col2:Double我想执行以下操作: .groupBy(window(col("time"),"10 seconds","1 second"))
.agg(mean("col1") with window of 10 seconds,max("col") with