腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
pyspark
中
的
groupby
和
join
vs
窗口
group-by
、
pyspark
、
window
、
partition-by
我在
pyspark
中有一个数据帧,它有数亿行(这里是它
的
一个虚拟样本): import datetimefrom
pyspark
.sqlimport Window,Rowfrom
pyspark
.sql.functions import month, mean一种方法是使用grouby
和
join
: dg1
浏览 21
提问于2019-02-04
得票数 3
2
回答
删除与某些行相关
的
所有重复行。
python
、
pyspark
、
apache-spark-sql
、
pyspark-sql
我见过几个这样
的
问题,但对我
的
情况不是一个令人满意
的
答案。3.0| 0||892383| 2.0| 0|+------+-----+----+ 产
浏览 0
提问于2018-07-25
得票数 1
回答已采纳
3
回答
在
的
窗口
上创建一个组id
apache-spark
、
pyspark
、
apache-spark-sql
、
window-functions
我有一个数据文件,我想在每个
窗口
分区
中
给出id。例如,我有1 | a |3 | b |5 | c |id | group |1 | 1 |3 | 2 |5 | 3 |w = Window().
浏览 0
提问于2018-05-08
得票数 5
回答已采纳
1
回答
使用
PySpark
根据行值模式对记录进行分组
python
、
apache-spark
、
pyspark
、
apache-spark-sql
、
pyspark-sql
我有一张三栏
的
桌子:| Q| 2| 9|我希望通过根据"col1“值对记录进行分组来连接"col2”
中
的
字符串col2“
的
模式为1,后面跟着任意数量
的
0,然后是2。我想对具有"col2”以1开头,以2结尾
的
记录进行分组(必须维护数据帧
的
顺序--您可以使用row
浏览 0
提问于2020-04-01
得票数 2
回答已采纳
1
回答
GroupBy
之后
的
PySpark
Join
python
、
join
、
pyspark
、
group-by
、
pyspark-dataframes
我有两个数据帧,我想要做
的
是按组/分区连接它们。我如何在
PySpark
中
实现它? 第二个df包含没有间隔
的
时间序列。我想要达到
的
结果是
浏览 4
提问于2020-03-30
得票数 2
2
回答
在Spark DataFrame
中
查找每个组
的
最大行数
apache-spark
、
pyspark
、
apache-spark-sql
在一个包含14个节点
的
Google Dataproc集群
中
,我有大约600万个名称被两个不同
的
系统转换为I:sa
和
sb。每个Row包含name、id_sa
和
id_sb。我
的
目标是生成一个从id_sa到id_sb
的
映射,以便对于每个id_sa,对应
的
id_sb是附加到id_sa
的
所有名称中最常见
的
id。 让我们试着用一个例子来说明。a1到b2
的
映射。实际上,与a1关联
的
名称是n1、n
浏览 0
提问于2016-02-05
得票数 54
回答已采纳
2
回答
如何从
PySpark
中
的
2列
中
获得一行序列字符串?
python
、
apache-spark
、
pyspark
、
apache-spark-sql
、
user-defined-functions
我有以下数据结构:列"s“
和
"d”表示"x“列
中
对象
的
转换。我想要做
的
是获取"x“列
中
的
每个对象
的
转换字符串。例如,“新”栏如下:有使用
PySpark
的
好方法吗?我使用
PySpark
尝试了以下udf代码,但它不起作用:from
pyspark
浏览 13
提问于2022-10-19
得票数 1
回答已采纳
3
回答
用Spark
中
另一个类别列
的
平均值替换列
的
空值
database
、
scala
、
apache-spark
、
apache-spark-sql
我有这样
的
数据集1 A NaN3 A 10.5val df2 = dataFrame.
groupBy
(category).agg(mean(value)).rdd.map{ }.collect().toMap我得到了每个类别的地图以及它们各
浏览 6
提问于2017-02-21
得票数 1
回答已采纳
2
回答
带有
groupby
的
pyspark
collect_set或collect_list
list
、
group-by
、
set
、
pyspark
、
collect
在
groupby
之后,如何在数据帧上使用collect_set或collect_list。例如:df.
groupby
('key').collect_set('values')。
浏览 2
提问于2016-06-02
得票数 62
回答已采纳
1
回答
如何选择最大值行
的
所有列
python
、
apache-spark
、
pyspark
我需要通过对'ID‘进行分组来选择数据帧
中
的
所有列。但是当我这样做
的
时候,我只能得到ID
和
'value‘。我需要所有的栏目a.show() 这只选择'id‘
和
'date’列。还有其他列。如何选择日期中最大值
的
所有列。
浏览 17
提问于2018-09-06
得票数 3
回答已采纳
2
回答
pyspark
是否支持
窗口
函数(例如first、last、lag、lead)?
apache-spark
、
pyspark
pyspark
是否支持
窗口
函数(例如first, last, lag, lead)? 例如,如何按一列分组并按另一列排序,然后按SparkSQL或数据框选择每个组
的
第一行(这就像
窗口
函数一样)?我发现
pyspark
.sql.functions类包含聚合函数first
和
last,但它们不能用于
groupBy
类。
浏览 2
提问于2015-03-24
得票数 3
1
回答
与单独运行相比,具有多个聚合
的
吡火花旋转数据要长/冻结得多。
apache-spark
、
pyspark
、
pivot
假设这一步骤是必要
的
,它似乎无休止地运行在16节点4 cpu上,每个cpu
的
内存为30 16,cpu利用率为100% (4)。见 我做错了什么?该命令看起来如下:df_aggregate_and_pivot = df_
groupby
.pivot('day').agg(*aggs然而,仅在7.1秒内a就返回了: df_
groupby
.pivot(pivot_col, piv
浏览 1
提问于2021-01-28
得票数 1
1
回答
Pyspark
--根据另一个数据框
的
行值过滤数据框
pyspark
、
apache-spark-sql
、
pyspark-dataframes
我有一个主数据帧
和
一个辅助数据帧,我想逐行遍历它们,根据每行
中
的
值过滤主数据帧,在过滤后
的
主数据帧上运行函数,并保存输出。 my_list = df_filt.select('Name').rdd.flatMap(lambda x: x).collect() return '-'.
join</
浏览 0
提问于2020-05-28
得票数 1
1
回答
聚合一列,但在选择
中
显示所有列
apache-spark
、
pyspark
、
apache-spark-sql
在按日期列分组行时,我尝试显示列
的
最大值。所以我尝试了这段代码 .
groupBy
('DATE')\但是产出看起来是这样
的
:| DATE|max(CLOSE)||1987-05-08|51.441| 0| 51.441|
浏览 2
提问于2020-07-24
得票数 2
回答已采纳
2
回答
在
PySpark
中有效地对不同
的
值求和并在求和
中
创建百分比
python
、
pyspark
、
sum
、
distinct
假设Ι有一个这样
的
数据帧: df Monday 0 7Tuesday 1 13 Tuesday 0 84 如何使用group
和
day给出
的
百分比创建名为' percentages‘
的
新列?Tuesday 1 13 13/31
浏览 25
提问于2020-10-13
得票数 0
回答已采纳
1
回答
在火花表
中
追加聚合状态从循环开始
pyspark
在循环中
的
每一次迭代
中
,我过滤掉H列
中
带有特定字符串
的
所有行,然后计算G列上
的
一些聚合统计数据(结果为3个值)。我希望将所有的汇总计数保存在一个表
中
(行: CM、NCM、FP;列: POP、POP N、POP SN、POP QP)。from
pyspark
.sql import SparkSessionimport numpy as np
浏览 0
提问于2018-10-28
得票数 0
回答已采纳
7
回答
MySQL
的
GROUP_CONCAT聚合函数
的
Spark SQL替换
apache-spark
、
aggregate-functions
、
apache-spark-sql
我有一个包含两个字符串类型列
的
表(username, friend),对于每个用户名,我希望将它
的
所有朋友收集在一行上,并以字符串
的
形式连接起来。例如:('username1', 'friends1, friends2, friends3') 我知道MySQL
和
GROUP_CONCAT就是这么做
的
。有没有办法用Spark SQL做到这一点?
浏览 246
提问于2015-07-27
得票数 40
回答已采纳
2
回答
如何在
groupBy
之后进行过滤
和
打印?
pyspark
我想过滤所有三个部门都有名称
的
行。test, d1test, d3test1, d3test, d1test, d3 到目前为止,我尝试
的
是df.
groupBy
(“名称”).show(),它不能工作,因为我没有在
groupBy
之后进行任何聚合。
浏览 7
提问于2022-03-04
得票数 0
回答已采纳
1
回答
我必须遵守
pyspark
sql
中
的
命令顺序吗?
python
、
pyspark-sql
我正在学习
pyspark
sql,我不确定函数
的
顺序是否必须是下一个?
groupby
() agg()
join
() select() .agg(f.max('value').alias('value'))\ .
浏览 2
提问于2019-09-18
得票数 0
1
回答
在列
中
对列表
中
的
值进行合并和操作
python
、
join
、
apache-spark
、
dataframe
、
pyspark
type
的
keywords
的
平均score。因此,person 'u1‘在type 'type1’上
的
平均值为1.5,因为它有关键字'a‘
和
'b’,它们
的
贡献为2+1/2=1.5。我尝试了一种包括连接
的
方法: .select('person', 'type', 'keywords', 'keyword
浏览 2
提问于2016-03-19
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
余弦相似度算法进行客户流失分类预测
Kafka streams概览
万亿级数据规模下的倾斜调优
SQL查询语句总是先执行SELECT?你们都错了
一文读懂PySpark数据框
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券