腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
PySpark
如何
根据
groupby
/
window
/
partition
填充
列
中
的
值
并
执行
自定义
函数
?
pyspark
、
window
、
user-defined-functions
、
populate
、
partition
我正在尝试
填充
列
中
缺少
的
值
。组/分区
中
第一行或任何后续行(
根据
日期按顺序排列)
中
的
配置文件
列
将具有必须在配置文件
列
的
以下单元格
中
填充
的
值
。我曾尝试
使用
窗口
函数
运行它,但无法将UDF应用于窗口
函数
。
浏览 35
提问于2019-06-07
得票数 0
回答已采纳
1
回答
Pyspark
:
如何
将行分组为N个组?
pyspark
我在
pyspark
脚本
中
执行
df.
groupBy
().apply(),
并
希望创建一个
自定义
列
,该
列
将我
的
所有行分组到N(尽可能均匀,所以行/n)组
中
。这就是为什么我可以确保每次脚本运行时发送到我
的
udf
函数
的
组数。 我
如何
使用
pyspark
来做这件事?
浏览 32
提问于2020-07-21
得票数 0
回答已采纳
3
回答
向
PySpark
数据帧
中
添加组计数列
apache-spark
、
pyspark
、
dplyr
我来自R和到
PySpark
,因为它
的
出色
的
火花处理,我正在努力从一个上下文映射到另一个特定
的
概念。尤其是,假设我拥有如下数据集--+--a | 8b | 1x | y | na| 5 | 3a | 7 | 3在dplyr
中
,我只想说: df <-
浏览 0
提问于2018-02-14
得票数 37
回答已采纳
2
回答
提高我数据过滤
pyspark
程序
的
性能
python
、
pyspark
我想
使用
pyspark
提高我
的
应用程序
的
性能。 数据框如下所示:每一
列
表示用户XXX发布
的
关于问题XXX
的
评论。+ | 51697036|R1R4GTQCO51GC0|B0000001NY| 现在我想删除发表评论少于1条
的
用户发表
的
评论,以及收到评论少于3条
的
问题中
的
评论 我
的
代码是这样<e
浏览 24
提问于2019-05-16
得票数 1
1
回答
显示组和agg之后
的
所有火花放电
列
pyspark
我希望按一
列
分组,然后找到另一
列
的
最大
值
。最后,显示基于此条件
的
所有
列
。然而,当我
使用
我
的
代码时,它只显示2
列
,而不是所有
列
。# Normal way of creating dataframe in
pyspark
(2,2,'0-2spark.createDataFrame([ (4,6
浏览 0
提问于2020-01-19
得票数 0
回答已采纳
2
回答
用另一
列
的
值
指定滞后期
python
、
pyspark
、
apache-spark-sql
我有一个表,
并
希望得到另外两个
列
(column1和column2),其期望
值
如下:1 1column1
的
滞后
函数
,但是我得到了错误: TypeError: column不可迭代。以下是我
的
职责:from
pyspark
.sql import <
浏览 8
提问于2022-01-08
得票数 0
2
回答
如何
基于具有相同id
的
另一行更新行
apache-spark-sql
使用
,我希望基于具有相同id
的
其他行更新一个行
值
。value1,null2,202,nullid,value1,102,202,20 总之,在某些行
中
,value列为null,如果另有一个具有相同id且具有有效
值
的
行,我希望更新它们。在sql
中
,我只需编写一个内部联接
的
更新语句,但在Spark
中
却找不到相同
的
方法。更
浏览 1
提问于2018-12-24
得票数 1
回答已采纳
1
回答
更改aggregate子句是否会更改pandas_udf -
pyspark
中
的
任何内容?
python
、
apache-spark
、
pyspark
、
user-defined-functions
我是spark
的
新手,我想知道这是否会改变内存消耗以及
如何
将任务分配给它
的
工作人员。请看下面这个最小
的
例子,让你能够理解我
的
要求。pandas udf,以便能够在spark中
使用
我
的
python
函数
schema = T.StructType([T.StructField('xy', T.FloatType() ),("
PARTITION
_ID").apply(newfunction) # t
浏览 20
提问于2021-11-16
得票数 0
回答已采纳
1
回答
如何
在
PySpark
2.1.0
中
定义事件时间窗口上
的
UDAF
python
、
apache-spark
、
pyspark
、
apache-spark-sql
、
spark-structured-streaming
我正在编写一个Python应用程序,它在一个
值
序列上滑动一个窗口,每个
值
都有一个时间戳。我想对滑动窗口中
的
值
应用一个
函数
,以便
根据
图中所示
的
N个最新
值
计算分数。我们已经
使用
Python库实现了该
函数
,以利用GPU。 我发现Apache Spark 2.0附带了结构化流,它支持事件时间
的
窗口操作。如果您希望从.csv文件
中
读取有限
的
记录序列,
并</
浏览 21
提问于2017-03-12
得票数 2
回答已采纳
1
回答
Pyspark
:基于条件对窗口求和
python
、
apache-spark
、
pyspark
、
apache-spark-sql
、
window
1 ||2001-04-25|188|1 |+----------+---+---+ 我想在滚动窗口中对eps
列
中
的
值
求和,只保留id
列
中
任何给定ID
的
最后一个
值
。在我看来,在滚动窗口中,我应该做一些像F.sum(
groupBy
('id').agg(F.last('eps')))这样
的
事情
浏览 2
提问于2021-03-10
得票数 0
1
回答
聚合为三个最大
值
的
总和,按火花放电计
python
、
pyspark
我有一个按'id‘和’type‘分组
的
dataframe:| id|type|count|| 0| A| 2|| 1| C| 1|| 1| G| 2|现在我想按'id‘进行分组,得到3个最大
值
的
总和:| id|count|| 0| 8|+
浏览 0
提问于2018-10-24
得票数 0
2
回答
Pyspark
窗口
函数
:计算分类变量
的
数量和计算百分比
apache-spark
、
pyspark
、
apache-spark-sql
我有以下格式
的
数据框架。每个产品都有不同
的
ID,以及相关联
的
产品名称和类型。A 202 JIK C 40因此,我正在尝试在单独
的
列
中
获取该产品名称和ID
的
A、B和C总数
的
百分比。作为第一步,我尝试
使用
窗口
函数
,但它给出了整个
列
的
&quo
浏览 0
提问于2021-09-22
得票数 2
3
回答
Pyspark
dataframe:对一
列
进行求和,同时对另一
列
进行分组
python
、
apache-spark-sql
、
pyspark
、
pyspark-sql
、
apache-spark-1.3
299.95 5 299.98 from
pyspark
.sql import functions as func prova_df.
groupBy
浏览 0
提问于2015-11-28
得票数 9
1
回答
如何
用dataframe子部分
中
的
另一
列
中
的
值
替换一个
列
中
的
值
?
dataframe
、
pyspark
、
pivot
我必须对dataframe
的
"activity“
列
执行
group和pivot操作,并用"quantity”
列
之和
填充
由pivot产生
的
新
列
。但是,其中一个活动
列
必须
使用
“成本”
列
的
总和
填充
。2 | swimming | outdoor |枢轴码:
浏览 1
提问于2022-08-01
得票数 0
回答已采纳
1
回答
在火花放电
中
创建计数器
python
、
r
、
apache-spark
、
pyspark
如何
在
Pyspark
中
实现以下R代码l$d2[1]= 0for(i in2:nrow(l)) c= ifelse(l$d2[i]<=3,c,c+1) }如果
值
大于或等于3,我想迭代一
列
,
并
增加一个计数器。假设我
的
专栏
中
的<
浏览 3
提问于2016-11-07
得票数 2
1
回答
PySpark
:用于枕木统计变换
的
熊猫UDF
pyspark
、
pandas-udf
我试图在星火数据表上创建x
列
的
标准化(z-得分)
列
,但我遗漏了一些东西,因为它们都不起作用。下面是我
的
例子:from
pyspark
.sql.functions import pandas_udf, PandasUDFType df = df.withColumn('y', zscore_udf
浏览 7
提问于2022-06-04
得票数 0
1
回答
如何
为
PySpark
设置窗口
函数
的
分区?
apache-spark
、
pyspark
、
apache-spark-sql
、
google-cloud-dataproc
我正在运行一个
PySpark
作业,
并
收到以下消息:编辑: 我正试着在整个专栏上排名。我
的</e
浏览 3
提问于2016-04-05
得票数 6
2
回答
火花放电drop_duplicates(keep=False)
python
、
pandas
、
pyspark
、
duplicates
我需要一个用于潘达斯 drop_duplicates(keep=False)
的
解决方案。不幸
的
是,keep=False选项无法在
pyspark
中
使用
..。subset=['A', 'B'], keep=False)预期产出:2 bar 5 three 转换.to_pandas()并将其返回到
pyspark
浏览 1
提问于2019-01-09
得票数 1
回答已采纳
1
回答
在
pyspark
dataframe
中
检索最大
值
时遇到问题
python
、
apache-spark
、
pyspark
、
apache-spark-sql
、
aws-glue
在我通过
使用
窗口和对一组
列
进行分区来计算
pyspark
dataframe
中
每行5行内
的
平均数量之后 from
pyspark
.sql import functions as Fconsecutive_df = prep_df.withColumn('aveg', F.avg(prep_df['quantity']).over(
window
)) 我尝试
使用
相同
的
组进
浏览 14
提问于2020-06-19
得票数 0
回答已采纳
1
回答
如何
将窗口
函数
直接输出到SQL
中
的
新窗口
函数
?
sql
、
sqlite
、
subquery
、
common-table-expression
、
window-functions
尽管
根据
我
的
理解,MyMax
的
列
是动态创建
的
,但我猜想SQL仍然不能立即将其
值
用作下一个窗口
函数
的
输入。我已经尝试为MaxPower创建
列
并在上面的查询之前
填充
它,通过ALTER TABLE MyTable ADD COLUMN MyMax real;FROM ( SELECT *, Max(Watts) OVER
浏览 5
提问于2022-04-15
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python之数据聚合与分组运算
Kafka streams概览
一文读懂PySpark数据框
24个用于数据分析任务的常用SQL函数
如何用Python轻松取代Excel
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券