Pyspark:创建滞后列_pyspark滞后函数(基于列)_Pyspark Groupby创建列 - 腾讯云开发者社区

apache-spark、pyspark、apache-spark-sql、user-defined-functions、python-datetime

我正在使用pyspark，并获得了一个如下表，table_1 +--------+------------------+---------------+----------+-----++--------+------------------+---------------+----------+-----+ 我想在table_1中添加一个时间(15分钟)的滞后列它显示了一个错误‘TypeError: strptime()参数1必须是str，而不是列’，有什么方法可以

浏览 10提问于2021-01-13得票数 1

回答已采纳

1回答

Pyspark:根据另一列生成一个列，该列多次将值附加到当前行

python、apache-spark、pyspark、apache-spark-sql、pyspark-dataframes

这是我的数据我想为产品列中的每个产品生成列B。我试过使用pyspark的铅/滞后函数，但无法准确地生成它。

浏览 2提问于2020-09-21得票数 1

回答已采纳

1回答

从火花放电中查找下一个不同的值

pyspark

5| 3+4+5|| 5| 3+4+5|+-----+----------+| 5| 3+4+5| 2.0|+-----+----------+------+ 结果列如下所示，对于名为value的列中的项，请查找下一个按顺序排列的项。但是，当重复3次的值5这样的重复时，简单的滞

浏览 0提问于2020-04-21得票数 2

回答已采纳

1回答

将相关的蜂箱查询转换为pyspark转换的策略？

sql、apache-spark、pyspark、hive、bigdata

我需要将下面的SQL查询转换为pyspark转换。select子句中定义了一个相关的子查询。是否有任何方法将此转换为pyspark转换？如果你能分享这篇文章的话，非常感谢。注意:在acc_cap列上使用滞后窗口函数添加prev_time列之后，还从test_db.test_table创建了time表。

浏览 8提问于2022-06-05得票数 0

回答已采纳

1回答

得到圆柱的“圆形滞后”

python、pyspark、pyspark-sql、window-functions

我想根据现有列的滞后值在pyspark.sql.DataFrame中创建一个新列。但是..。我也希望最后的值成为第一值，第一值成为最后的值。500| 200| 300|我能感觉到它与窗口函数或pyspark.sql.lag

浏览 1提问于2018-08-07得票数 2

回答已采纳

1回答

pySpark滞后函数可以引用自己吗？

python、pyspark、window、lag

我正在寻找一种方法来增长列中的累积值，使用pySpark中的滞后函数首先在列中获取前一个值，然后添加到该列中，但是它失败了，因为它可能在它存在之前找不到自己。有办法绕道吗？

浏览 4提问于2022-03-17得票数 0

1回答

如何使用pyspark计算连续的值？

python、pyspark

我正在尝试计算出现在Pyspark列中的连续值。我的dataframe中有列"a“，并希望创建列"b”。2| 2|| 2| 4|| 2| 6|| 3| 2|+---+---+ 我曾尝试在某个窗口上使用滞后函数创建列

浏览 11提问于2020-05-13得票数 2

1回答

pyspark滞后函数(基于列)

pyspark

我想实现以下目标偏移量是动态的。我也尝试过使用UDF，但它不起作用。

浏览 5提问于2017-08-30得票数 2

1回答

PySpark列值滞后与标记

pyspark、apache-spark-sql

daysB 2017-12-01 Null OK 我想根据Due_day和Client列得到结果列

浏览 1提问于2020-11-17得票数 0

回答已采纳

1回答

使用PySpark在多列上执行滞后操作

python、apache-spark、pyspark、apache-spark-sql、lag

我对PySpark相当陌生，但我正在尝试在代码中使用最佳实践。我有一个PySpark数据格式，我想延迟多个列，用滞后值替换原始值。我想根据ID获取所有值，按date排序，然后对值进行一定程度的滞后。我到目前为止掌握的代码： window = Window.partitionBy(F.col("ID"))我遇到的问题是，据我所能找到的，F.lag只接受一个列

浏览 3提问于2022-01-04得票数 1

回答已采纳

1回答

在Pyspark中选择日期间隔超过6个月的记录

python、apache-spark、pyspark、apache-spark-sql

) * 12 + (d2.month - d1.month) >= 6 ): else: i=j 有没有人能帮我把它转换成PySpark

浏览 25提问于2021-07-25得票数 0

1回答

特性工程师实时计量学

python、pyspark、apache-spark-sql、feature-engineering

为了举例说明这一过程，想象4个不同的客户(一些是返回的，一些是新的)从商店购买(如下所示)我正在尝试使用Pyspark将我的代码按ID划分，并创建两个特性:平均(在那个时候)购买和总购买。结果如下：我简单地做了一个累积和，从而确定了Total_Purchase_1列，但在我的一生中，我无法得到仅使用该日期的滞后值计算平均值的时间均值(Mean_Purchase_1)点。我是个大块头，有处理Python中的dplyr，甚至是Pandas的经验，但是我正在尝试使用Pyspark来优化它

浏览 3提问于2020-11-02得票数 0

回答已采纳

2回答

如何在pyspark中靠近特定行附近的行？

pyspark

我想要得到最近的行，给出一个特定的行。例如，给出两个数据帧： User timeA 3 A 1A 3E 7D 11 第一行是特定的行，第二行是整个表，让我们将窗口大小设置为1。因此，结果如下所示： User timeB 2B 2D 6 但是我怎么才能得到这个呢？谢谢..

浏览 8提问于2019-10-13得票数 0

1回答

基于row_number值增加时间戳列

apache-spark、pyspark、databricks

我正在从每个包中提取数据，并在每个数据包中得到10条记录，每个数据包上都有一个时间戳。我想爆炸由10条记录组成的数据包，我想在每个记录中添加分组时间戳，在EnqueuedTimeUtc和vehicleid分区时增加1秒。df.show() | EnqueuedTimeUtc| vehicleid| datetime_pkt | +-------------------+---------------+-

浏览 2提问于2022-05-19得票数 0

回答已采纳

1回答

PySpark滞后函数

pyspark

from pyspark.sql import Row, functions as Fimport pandas as pd{'A': [2,2,2,2], 'B': [0.5, 0.5,1,1.5]}ddf = spark.createDataFrame(df) 我需要一列C，计算C列的逻辑在下面。第一行C=A.所有其他行C=滞后(C)-

浏览 0提问于2021-07-30得票数 2

回答已采纳

2回答

pyspark是否支持窗口函数(例如first、last、lag、lead)？

apache-spark、pyspark

pyspark是否支持窗口函数(例如first, last, lag, lead)？例如，如何按一列分组并按另一列排序，然后按SparkSQL或数据框选择每个组的第一行(这就像窗口函数一样)？我发现pyspark.sql.functions类包含聚合函数first和last，但它们不能用于groupBy类。

浏览 2提问于2015-03-24得票数 3

1回答

基于另一列值的一列上的火花放电滞后函数

python、pyspark、lag、lead

我希望能够根据其中一列中的值创建一个滞后值。import pyspark.sql.functions as func+---+---+-----+--------

浏览 0提问于2019-04-11得票数 1

回答已采纳

1回答

无法将列转换为bool:在构建DataFrame布尔表达式时，请使用'&‘for 'and'，’AC.26‘for’或'or'，'~‘表示'not’

pyspark

from pyspark.sql.window import Windowfrom pyspark.sql.functions import udf df17.show() 我试着使用滞后函数将前一组纬度和经度

浏览 3提问于2022-01-09得票数 0

1回答

差距为负1的预测

h2o、forecasting、driverless-ai

我使用H2O.ai来理解影响当前周目标值的当前周和滞后周功能。对于特定的一周销售，我感兴趣的是最有可能影响销售表现好坏的功能。为了解决这个问题，我希望H2O.ai使用当前周的特征值以及滞后值(包括目标的滞后)来“预测”当前周的销售情况--也就是说，这不是预测问题，而是理解驱动因素的问题。

浏览 6提问于2020-02-12得票数 0

1回答

根据另一列的先前值在Hive中创建新列

hive、window-functions

NULL 2NULL 40 6NULL 81 10NULL 1NULL 0NULL 0我正在使用hive，并且确实可以访问pyspark我研究过窗口函数(秩、Dense_rank、Row_number、滞后、铅)。有什么建议吗？

浏览 1提问于2018-09-26得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云