我在DataFrame中有3列:- time:TimeStamp,col1:Double,col2:Double我想执行以下操作: .groupBy(window(col("time"),"10 seconds","1 second"))
.agg(mean("col1") with window of 10 seconds,max("col") with
例如,我在Scala中使用Apache spark对数据帧中的多个列运行聚合selectcolumn2, sum(1) as count from df group by column2
实际的聚合比sum(1)复杂得多,但它超出了要点。上面的例子这样的查询字符串是为我想要聚合的每个变量编译的,我通过Spark sql上下文执行每个字符串,以创建代表相关聚合</em