org.apache.spark.sql.AnalysisException:流式数据帧/数据集上不支持非基于时间的窗口；；尽管存在基于时间的窗口

scala、apache-spark、spark-streaming

我正在对Spark Structured Streaming进行基于窗口的排序： val filterWindow: WindowSpec = Window .partitionBy("key")withWatermark("datetime", "10 seconds") 我以current_timestamp()的形式获取time，在schemat中我看到它的类型是StructField(time,TimestampType,true)

浏览 181提问于2021-11-22得票数 0

回答已采纳

2回答

排列星河数据集列

scala、apache-spark-sql、spark-streaming、user-defined-functions

我正在使用Spark2.3.1的结构化流API。是否有可能在火花流数据的列中对值进行排序？我尝试使用下面的代码，然后在异常消息之后意识到流上下文不可能遍历整个窗口。.withColumn("rank", row_number().over(Window.orderBy($"transactionTime"))) org.apache.spark.sql.AnalysisException:流数据框架/数据

浏览 0提问于2018-07-06得票数 4

回答已采纳

1回答

Spark Structured Streaming -如何按最新计数和聚合计数进行重复数据删除

apache-spark、apache-spark-sql、spark-structured-streaming

我想执行具有窗口期的结构化流聚合。给定以下数据模式。目标是根据用户过滤最新发生的事件。然后汇总每个位置的每种事件类型的计数。type")) as 'countOne, count(when($"type" === "two", $"type" as 'countTwo)))因为结构化流式传输不支持多个聚合

浏览 0提问于2017-10-06得票数 3

1回答

最后N个数据点上的Pyspark结构化流窗口(移动平均)

python、apache-spark、pyspark、spark-streaming

我想在数据框中添加一些新的列，这些列主要基于过去N个数据点的窗口计算(例如:最近20个数据点的移动平均)，并且随着新数据点的交付，MA_20的相应值应该立即计算出来。我认为我可以使用rowsBetween或rangeBetween，但在流数据帧窗口不能应用于非时间戳列(F.col('Timestamp

浏览 26提问于2020-01-23得票数 3

1回答

流数据帧/数据集不支持基于火花的非时间窗口；

java、apache-spark、apache-spark-sql、spark-streaming

我需要编写带有内部选择和分区的Spark查询。问题是我有AnalysisException。我已经花了几个小时在这个问题上，但是用其他的方法我没有成功。例外： Exception in thread "main" org.apache.spark.sql.AnalysisException: Non-time-based windows are notwantedTemperature#31, CASE WHEN (status#29 = cast(false as boolean)) THEN 1 ELSE 0 END

浏览 0提问于2018-11-14得票数 9

2回答

如何对流式DataFrame进行多时间窗操作？

scala、apache-spark、apache-spark-sql、spark-structured-streaming

我在DataFrame中有3列：- time:TimeStamp，col1:Double，col2:Double我想执行以下操作： .groupBy(window(col("time"),"10 seconds","1 second")) .agg(mean("col1") with window of 10 seconds,max("col") with

浏览 0提问于2017-08-30得票数 1

1回答

火花流:为dataframe中的每个id选择具有最大时间戳的记录。

apache-spark、apache-spark-sql、pyspark-sql、spark-structured-streaming

我有一个带有模式的数据- |-- Data1: string (nullable = true)不过，我一直在犯这个错误：在没有水印的</

浏览 0提问于2018-06-19得票数 3

回答已采纳

1回答

跳跃与滑动窗

hadoop、streaming、windowing

据我所知，滚动窗口是设置为一个间隔，事件的不重叠和到期在设定的时间间隔。现在，跳窗和滑动窗都重叠，在跳窗的情况下，我们有跳间隔和正常窗口间隔，而滑动窗口具有除窗口间隔以外的滑动间隔。我在上查看了这个链接，我理解它，但滑动间隔似乎也是一样的。有谁能帮我解释一下区别吗。

浏览 3提问于2017-04-03得票数 5

1回答

为ConvLSTM2d准备网格天气数据

python、numpy、keras、tensorflow2.0

我正在尝试使用一个使用每小时网格天气数据的ConvLSTM2d模型。我可以将数据放入具有以下维数(纬度、num_features)的四维数组中。我的问题是，我如何在这个数组中创建一个额外的维度来拥有序列长度维度？数据帧中获得正确格式的数据？*我意识到在提出问题时，拥有样本数据集总是更容易，因此我创建了一个集来模拟问题。temp_df) df = pd.conca

浏览 3提问于2021-09-28得票数 0

1回答

使用PySpark和不使用窗口对Kafka的流数据执行滚动平均值

pyspark、apache-kafka、pyspark-dataframes

我一直试图对流数据执行数据聚合，得到以下错误：我正在寻找一种替代窗口方法来执行流数据的聚合。

浏览 3提问于2020-09-20得票数 0

3回答

滑动窗口与翻滚窗口

streaming

我正在读一篇关于数据流管理的长篇文章，我对滑动和翻滚窗口之间的区别感到有点困惑。到目前为止，我已经理解了翻滚窗口可以是基于时间的，并且有固定的(开始，结束)-points，它在窗口到期时“翻滚”。例如，基于时间的窗口可以是1分钟长。因此，每隔一分钟，窗口就会翻滚以处理数据集的

浏览 2提问于2012-09-26得票数 33

回答已采纳

1回答

加入流Flink不适用于卡夫卡消费者

apache-kafka、apache-flink

我正在尝试加入两个流，一个来自数据收集，一个来自Kafka。timestamp) -> System.currentTimeMillis(); } 运行代码段代码后，输出中没有任何合并的数据

浏览 4提问于2022-06-10得票数 0

回答已采纳

5回答

R:具有可调窗口和步长的滚动窗口功能，用于不规则间隔的观测。

r、time-series、sliding-window

假设有一个2列的数据帧，它的时间或距离列依次增加，另一个观测列可能到处都有NAs。我如何有效地使用滑动窗口函数来获得一些统计数据，比如说，对于一个持续时间为X的窗口(例如5秒)中的观测数据，滑动窗口超过Y秒(例如2.5秒)，重复.窗口中的观测数是基于时间列的，因此每个

浏览 3提问于2014-07-14得票数 9

回答已采纳

1回答

如何丢弃数据流中第一个滑动窗口中的数据？

google-cloud-dataflow

我希望在管道执行开始时识别并丢弃不完整的窗口(独立于滑动)。例如：如果我每小时计算一次事件的数量，并且我从一小时过后的55分开始计数，那么我应该期望第一个窗口中的值大约为1/12，然后平滑地上升到“正确”的平均值。

浏览 0提问于2017-01-04得票数 2

3回答

如何在spark数据流结构中使用非基于时间的窗口？

pyspark、apache-spark-sql、spark-streaming

我在非基于时间的数据上使用window，所以我得到了这个错误：下面是我的代码：outputDf = inputDf\

浏览 0提问于2019-04-09得票数 5

3回答

确定包含数组的Pandas列是否包含特定值

python、pandas、numpy

我有一个包含三列的dataframe :两列定义一段时间(一个窗口)的开始和结束，另一列包含单个时间点的数组。我想确定是否有任何单独的点在窗口的开始和结束(其他两列)内。理想的输出应该是每一行的True/False。我可以遍历数据帧的每一行，提取时间点以及start_window和end_window时间</

浏览 0提问于2019-06-07得票数 0

1回答

如何使用scala中的星火流将索引列附加到星火数据帧？

scala、apache-spark

我用的是这样的东西：但我得到了一个例外，因为它不被支持：完整堆栈跟踪：

浏览 3提问于2021-01-05得票数 1

2回答

如何在基于固定尺寸计数的滑动窗口上进行聚合？

apache-kafka-streams

如何使用基于固定大小计数的窗口实现滑动窗口聚合(或转换)？input stream = 1,2,3,4,5,6,7,8...output stream = avg(1,2,3), avg(2,3,4), avg(3,4,5卡夫卡流作品中记录的

浏览 2提问于2018-03-03得票数 4

1回答

当一个数据集涉及聚合时如何连接两个流数据集

scala、apache-spark、apache-spark-sql、spark-streaming、spark-structured-streaming

我在下面的代码片段中出现了错误-.add("org",StringType).add

浏览 3提问于2020-02-18得票数 0

1回答

金融时间序列数据归一化

keras、r、time-series、normalization

我用R中的Keras来预测金融时间序列。价格正常化很容易，只需计算收益或日志回报，通常就足够了。我想用高盛金融状况指数和摩根士丹利资本国际世界指数来预测其他证券，我想用水平和它们的回报或最初的差异来预测。我认为使用minmax或z-得分归一化是不合适的，因为序列分布会改变。那么，问题是如何规范非平稳时间序列数据？

浏览 0提问于2018-12-27得票数 5

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

排列星河数据集列

Spark Structured Streaming -如何按最新计数和聚合计数进行重复数据删除

最后N个数据点上的Pyspark结构化流窗口(移动平均)

流数据帧/数据集不支持基于火花的非时间窗口；

如何对流式DataFrame进行多时间窗操作？

火花流:为dataframe中的每个id选择具有最大时间戳的记录。

跳跃与滑动窗

为ConvLSTM2d准备网格天气数据

使用PySpark和不使用窗口对Kafka的流数据执行滚动平均值

滑动窗口与翻滚窗口

加入流Flink不适用于卡夫卡消费者

R:具有可调窗口和步长的滚动窗口功能，用于不规则间隔的观测。

如何丢弃数据流中第一个滑动窗口中的数据？

如何在spark数据流结构中使用非基于时间的窗口？

确定包含数组的Pandas列是否包含特定值

如何使用scala中的星火流将索引列附加到星火数据帧？

如何在基于固定尺寸计数的滑动窗口上进行聚合？

当一个数据集涉及聚合时如何连接两个流数据集

金融时间序列数据归一化

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐