pyspark:使用时间序列数据填充零的滚动平均

pyspark是一个用于大规模数据处理和分析的开源框架，它基于Apache Spark构建而成。它提供了Python编程语言的API，使得开发人员可以使用Python进行分布式数据处理和分析。

时间序列数据是按照时间顺序排列的数据集合，常见于金融、气象、股票等领域。填充零的滚动平均是一种处理时间序列数据中缺失值的方法。当时间序列数据中存在缺失值时，可以使用滚动平均的方法来填充这些缺失值，即用前后时间点的平均值来代替缺失值。

在pyspark中，可以使用DataFrame API或者RDD API来处理时间序列数据并进行滚动平均的填充。以下是一个示例代码：

from pyspark.sql import SparkSession
from pyspark.sql.functions import lag, lead, col

# 创建SparkSession
spark = SparkSession.builder.getOrCreate()

# 读取时间序列数据
data = spark.read.csv("path/to/data.csv", header=True, inferSchema=True)

# 填充缺失值为0
data = data.na.fill(0)

# 添加lag和lead列，用于计算滚动平均
data = data.withColumn("lag", lag(col("value")).over(Window.orderBy("timestamp")))
data = data.withColumn("lead", lead(col("value")).over(Window.orderBy("timestamp")))

# 计算滚动平均并填充缺失值
data = data.withColumn("rolling_avg", (col("lag") + col("lead")) / 2)

# 显示结果
data.show()

在上述代码中，首先创建了一个SparkSession对象，然后使用read.csv方法读取时间序列数据。接着使用na.fill方法将缺失值填充为0。然后使用lag和lead函数添加lag和lead列，用于计算滚动平均。最后使用withColumn方法计算滚动平均并填充缺失值。最后使用show方法显示结果。

腾讯云提供了一系列与大数据处理和分析相关的产品和服务，例如TencentDB、Tencent Distributed Tensorflow、Tencent Cloud Data Lake Analytics等，可以根据具体需求选择适合的产品。更多关于腾讯云的产品和服务信息，可以访问腾讯云官方网站：https://cloud.tencent.com/。

pyspark:使用时间序列数据填充零的滚动平均

apache-spark、pyspark、window-functions、moving-average

我有一个数据集，其中包含几个星期的售罄数据。我想计算一个移动平均值，例如3周，但考虑到没有卖出的周。让我们考虑以下数据：|wk_id |sellout||201801| 1.0||201803<- (3+0+1)/3|------|-------|----

浏览 7提问于2019-07-09得票数 0

回答已采纳

3回答

从非零条目计算时间序列数据的方法

r、subset

我有一个400+标签名称的数据帧，每个标签的每日时间序列数据。在我没有读数的地方，一些标签的值是0。我想计算时间序列中每个标签的非零值的平均值，并用该平均值填充零值。在这里，我想用100填充tag2的0值，用300填充tag1的0值我可以使用ddply来子

浏览 1提问于2015-06-21得票数 1

2回答

使用时间序列图，我正在绘制一个Prometheus Counter源(有一个label)作为time series (按标签)，并需要将所有空/缺失值填充为零。这是应用于Prometheus counter源的查询，它绘制标签code。图形显示可以工作(只需要查看每个标签变体的当前计数器值，以及所选时间范围内的差异)，但是新的Grafana time series graph缺少了Graph (ol

浏览 27提问于2021-10-01得票数 4

1回答

时间序列趋势

r、time-series、moving-average、trend

我有一个超过10年的时间序列，没有季节性变化(每年只有一个值)，我试图检测一种趋势。我真的不知道该怎么做。我读到在这种情况下使用了移动平均。到目前为止，我所做的： CharFS <- read.csv(".我假设ma.1，ma.2，ma.3是错误的，但我不知道如何调整它来适应我的数据，有什么想法吗？或者，在没有季节的情况下，有没有更好的方法来获得趋势？有没有可能用一个正常的图，然后添加一条线？不过，当

浏览 2提问于2014-04-15得票数 1

3回答

使用timeseries数据的滚动平均值

apache-spark、pyspark、window-functions、moving-average

我有一个由时间戳列和美元列组成的数据集。我想找出每周美元的平均数量，以每行的时间戳结束。我最初看的是pyspark.sql.functions.window函数，但这是按周打包数据的。00:00:00'| '2017-03-16 00:00:00'| 15.0|窗口函数绑定时间序列

浏览 7提问于2017-08-21得票数 46

回答已采纳

1回答

变长序列上窗口的平均池

python、tensorflow、moving-average、pooling

我有一个形状的张量in (batch_size，功能，步骤)，并希望通过时间维度(steps)上的平均池( steps)获得相同形状的输出张量out，窗口大小为2k+1，即：对于没有k之前和后续时间步骤的时间步骤，我只想计算现有时间步骤的平均值。然而，张量中的序列具有可变的长度，并相应地填充了零，因此，我将<em

浏览 8提问于2020-03-23得票数 0

回答已采纳

2回答

预测达到里程碑的概率-我应该使用多少生产领域的数据来训练/测试模型？

predictive-modeling、machine-learning-model、probability

如果我预测一个企业达到(x)里程碑(分类1)的概率，但我唯一拥有的数据是实时生产数据，那么我应该使用多少生产数据来训练模型呢？我的假设是，如果我使用所有数据，任何尚未达到里程碑的业务(0的分类)的概率很可能保持在0.因为我刚刚训练的模型应该是0。作为一个警告，我知道用80/20或70/30分割来训练/测试集是很常见的--我的大部分徒劳搜索都提出了这个答

浏览 0提问于2023-01-08得票数 0

回答已采纳

1回答

如何在机器学习中有意义地替代南值

python、pandas、validation、dataframe、machine-learning

我有一些我二进制编码的分类变量。如何使数据有用？需要什么具体的操作？

浏览 0提问于2018-05-31得票数 2

1回答

稀疏向量与密集向量PySpark

python、apache-spark、machine-learning、pyspark、sparse-matrix

我如何知道是否应该在PySpark中使用稀疏或密集的表示？我理解它们之间的区别(稀疏只通过存储非零的索引和值来节省内存)，但是从性能上讲，有什么通用的启发式方法来描述什么时候使用稀疏向量而不是密集的向量呢？是否有一个一般的“截止”维数和0的百分比值，超过这通常是更好地使用稀疏向量？若否，我应如何作出决定？谢谢。

浏览 2提问于2018-07-17得票数 4

回答已采纳

2回答

RNN是否应该将可变长度序列上的注意力权值重新归一化为“掩蔽”零填充效应？

tensorflow、machine-learning、deep-learning、rnn、attention-model

自我关注基本上只是计算RNN隐藏状态的加权平均值(均值池的推广，即非加权平均)。当同一批中有可变长度序列时，它们通常是零填充到批中最长序列的长度(如果使用动态RNN)。当计算每个序列的注意权值时，最后一步是一个软件最大值，因此注意权重之和为1。然而，在我所看到的每一次注意实现中，都没有注意掩盖或取消零填充对注意力权重的影响。这

浏览 0提问于2018-03-27得票数 12

回答已采纳

1回答

pandas绘制时间跨度聚合列

pandas、plot

我正在尝试使用时间跨度绘制数据。我使用的是pandas数据帧，时间跨度足够直接，但在所有示例中，它们生成的数据都符合时间跨度。 series = pd.Series(df['value'], index=df.index) series.resample('12T',how

浏览 0提问于2016-06-13得票数 0

2回答

有孔数据的有向滚动平均

javascript、dygraphs

戴图选项提供“rollPeriod”来支持滚动平均值，而“stepPlot”则提供支持步骤图的功能。当两者之间缺少一些数据时，它们就会产生非常意想不到的结果。例如，附加的图像链接显示原始数据(rollPeriod=1)和rollPeriod=5. ()的图形。例如，在4万时，滚动平均数必须为零。但是，有向图形平均使用最后5个数据点，而不是最后5秒。是否有可能得到

浏览 3提问于2014-08-01得票数 0

回答已采纳

2回答