腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Pyspark
:
创建
滞后
列
apache-spark
、
pyspark
、
apache-spark-sql
、
user-defined-functions
、
python-datetime
我正在使用
pyspark
,并获得了一个如下表,table_1 +--------+------------------+---------------+----------+-----++--------+------------------+---------------+----------+-----+ 我想在table_1中添加一个时间(15分钟)的
滞后
列
它显示了一个错误‘TypeError: strptime()参数1必须是str,而不是
列
’,有什么方法可以
浏览 10
提问于2021-01-13
得票数 1
回答已采纳
1
回答
Pyspark
:根据另一
列
生成一个
列
,该
列
多次将值附加到当前行
python
、
apache-spark
、
pyspark
、
apache-spark-sql
、
pyspark-dataframes
这是我的数据我想为产品
列
中的每个产品生成
列
B。 我试过使用
pyspark
的铅/
滞后
函数,但无法准确地生成它。
浏览 2
提问于2020-09-21
得票数 1
回答已采纳
1
回答
从火花放电中查找下一个不同的值
pyspark
5| 3+4+5|| 5| 3+4+5|+-----+----------+| 5| 3+4+5| 2.0|+-----+----------+------+ 结果
列
如下所示,对于名为value的
列
中的项,请查找下一个按顺序排列的项。但是,当重复3次的值5这样的重复时,简单的
滞
浏览 0
提问于2020-04-21
得票数 2
回答已采纳
1
回答
将相关的蜂箱查询转换为
pyspark
转换的策略?
sql
、
apache-spark
、
pyspark
、
hive
、
bigdata
我需要将下面的SQL查询转换为
pyspark
转换。select子句中定义了一个相关的子查询。是否有任何方法将此转换为
pyspark
转换?如果你能分享这篇文章的话,非常感谢。注意:在acc_cap列上使用
滞后
窗口函数添加prev_time
列
之后,还从test_db.test_table
创建
了time表。
浏览 8
提问于2022-06-05
得票数 0
回答已采纳
1
回答
得到圆柱的“圆形
滞后
”
python
、
pyspark
、
pyspark-sql
、
window-functions
我想根据现有
列
的
滞后
值在
pyspark
.sql.DataFrame中
创建
一个新
列
。但是..。我也希望最后的值成为第一值,第一值成为最后的值。500| 200| 300|我能感觉到它与窗口函数或
pyspark
.sql.lag
浏览 1
提问于2018-08-07
得票数 2
回答已采纳
1
回答
pySpark
滞后
函数可以引用自己吗?
python
、
pyspark
、
window
、
lag
我正在寻找一种方法来增长列中的累积值,使用
pySpark
中的
滞后
函数首先在
列
中获取前一个值,然后添加到该
列
中,但是它失败了,因为它可能在它存在之前找不到自己。有办法绕道吗?
浏览 4
提问于2022-03-17
得票数 0
1
回答
如何使用
pyspark
计算连续的值?
python
、
pyspark
我正在尝试计算出现在
Pyspark
列
中的连续值。我的dataframe中有
列
"a“,并希望
创建
列
"b”。2| 2|| 2| 4|| 2| 6|| 3| 2|+---+---+ 我曾尝试在某个窗口上使用
滞后
函数
创建
列
浏览 11
提问于2020-05-13
得票数 2
1
回答
pyspark
滞后
函数(基于
列
)
pyspark
我想实现以下目标偏移量是动态的。我也尝试过使用UDF,但它不起作用。
浏览 5
提问于2017-08-30
得票数 2
1
回答
PySpark
列
值
滞后
与标记
pyspark
、
apache-spark-sql
daysB 2017-12-01 Null OK 我想根据Due_day和Client
列
得到结果
列
浏览 1
提问于2020-11-17
得票数 0
回答已采纳
1
回答
使用
PySpark
在多列上执行
滞后
操作
python
、
apache-spark
、
pyspark
、
apache-spark-sql
、
lag
我对
PySpark
相当陌生,但我正在尝试在代码中使用最佳实践。我有一个
PySpark
数据格式,我想延迟多个
列
,用
滞后
值替换原始值。我想根据ID获取所有值,按date排序,然后对值进行一定程度的
滞后
。我到目前为止掌握的代码: window = Window.partitionBy(F.col("ID"))我遇到的问题是,据我所能找到的,F.lag只接受一个
列
浏览 3
提问于2022-01-04
得票数 1
回答已采纳
1
回答
在
Pyspark
中选择日期间隔超过6个月的记录
python
、
apache-spark
、
pyspark
、
apache-spark-sql
) * 12 + (d2.month - d1.month) >= 6 ): else: i=j 有没有人能帮我把它转换成
PySpark
浏览 25
提问于2021-07-25
得票数 0
1
回答
特性工程师实时计量学
python
、
pyspark
、
apache-spark-sql
、
feature-engineering
为了举例说明这一过程,想象4个不同的客户(一些是返回的,一些是新的)从商店购买(如下所示)我正在尝试使用
Pyspark
将我的代码按ID划分,并
创建
两个特性:平均(在那个时候)购买和总购买。结果如下:我简单地做了一个累积和,从而确定了Total_Purchase_1
列
,但在我的一生中,我无法得到仅使用该日期的
滞后
值计算平均值的时间均值(Mean_Purchase_1)点。我是个大块头,有处理Python中的dplyr,甚至是Pandas的经验,但是我正在尝试使用
Pyspark
来优化它
浏览 3
提问于2020-11-02
得票数 0
回答已采纳
2
回答
如何在
pyspark
中靠近特定行附近的行?
pyspark
我想要得到最近的行,给出一个特定的行。例如,给出两个数据帧: User timeA 3 A 1A 3E 7D 11 第一行是特定的行,第二行是整个表,让我们将窗口大小设置为1。因此,结果如下所示: User timeB 2B 2D 6 但是我怎么才能得到这个呢?谢谢..
浏览 8
提问于2019-10-13
得票数 0
1
回答
基于row_number值增加时间戳
列
apache-spark
、
pyspark
、
databricks
我正在从每个包中提取数据,并在每个数据包中得到10条记录,每个数据包上都有一个时间戳。我想爆炸由10条记录组成的数据包,我想在每个记录中添加分组时间戳,在EnqueuedTimeUtc和vehicleid分区时增加1秒。df.show() | EnqueuedTimeUtc| vehicleid| datetime_pkt | +-------------------+---------------+-
浏览 2
提问于2022-05-19
得票数 0
回答已采纳
1
回答
PySpark
滞后
函数
pyspark
from
pyspark
.sql import Row, functions as Fimport pandas as pd{'A': [2,2,2,2], 'B': [0.5, 0.5,1,1.5]}ddf = spark.createDataFrame(df) 我需要一
列
C,计算C
列
的逻辑在下面。第一行C=A.所有其他行C=
滞后
(C)-
浏览 0
提问于2021-07-30
得票数 2
回答已采纳
2
回答
pyspark
是否支持窗口函数(例如first、last、lag、lead)?
apache-spark
、
pyspark
pyspark
是否支持窗口函数(例如first, last, lag, lead)? 例如,如何按一
列
分组并按另一
列
排序,然后按SparkSQL或数据框选择每个组的第一行(这就像窗口函数一样)?我发现
pyspark
.sql.functions类包含聚合函数first和last,但它们不能用于groupBy类。
浏览 2
提问于2015-03-24
得票数 3
1
回答
基于另一
列
值的一
列
上的火花放电
滞后
函数
python
、
pyspark
、
lag
、
lead
我希望能够根据其中一
列
中的值
创建
一个
滞后
值。import
pyspark
.sql.functions as func+---+---+-----+--------
浏览 0
提问于2019-04-11
得票数 1
回答已采纳
1
回答
无法将
列
转换为bool:在构建DataFrame布尔表达式时,请使用'&‘for 'and',’AC.26‘for’或'or','~‘表示'not’
pyspark
from
pyspark
.sql.window import Windowfrom
pyspark
.sql.functions import udf df17.show() 我试着使用
滞后
函数将前一组纬度和经度
浏览 3
提问于2022-01-09
得票数 0
1
回答
差距为负1的预测
h2o
、
forecasting
、
driverless-ai
我使用H2O.ai来理解影响当前周目标值的当前周和
滞后
周功能。对于特定的一周销售,我感兴趣的是最有可能影响销售表现好坏的功能。为了解决这个问题,我希望H2O.ai使用当前周的特征值以及
滞后
值(包括目标的
滞后
)来“预测”当前周的销售情况--也就是说,这不是预测问题,而是理解驱动因素的问题。
浏览 6
提问于2020-02-12
得票数 0
1
回答
根据另一
列
的先前值在Hive中
创建
新
列
hive
、
window-functions
NULL 2NULL 40 6NULL 81 10NULL 1NULL 0NULL 0我正在使用hive,并且确实可以访问
pyspark
我研究过窗口函数(秩、Dense_rank、Row_number、
滞后
、铅)。有什么建议吗?
浏览 1
提问于2018-09-26
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
一文读懂PySpark数据框
一文读懂 PySpark 数据框
Python开源数据分析工具TOP 3!
PySaprk之DataFrame
大数据下Python的三款大数据分析工具
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券