腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
PySpark
groupBy
中
,
如何
按
组
计算
执行时间
?
、
、
、
我正在为一个大学项目使用
PySpark
,其中我有大量的数据帧,并且我使用
groupBy
应用了一个PandasUDF。基本上,调用如下所示: df.
groupBy
(col).apply(pandasUDF) 我
在
我的Spark配置(SparkConf().setMaster('local[10]'))中使用了10个内核目标是能够报告每个
组
运行我的代码所用的时间。我想要每个
组
完成的时间,这样我就可以取平均值。我对
计算
标准差也很感兴趣。我现在正在使用清理过
浏览 28
提问于2021-04-29
得票数 1
回答已采纳
2
回答
星火中映射到ResultIterable的映射函数
、
rdd = sc.parallelize((('A',('a',1)),('B',('b',3)),('A',('c',3)))) subG
浏览 7
提问于2017-05-11
得票数 0
2
回答
根据Spark 1.6数据帧上的其他字段
计算
每个
组
的不同元素
、
、
我尝试
在
Spark数据帧
中
按
日期分组,并为每个
组
计算
一列的唯一值:{"name":"Yin", "address":1111111, "date":20151122045510}, '%Y%m%d%H%M%S'), TimestampType())df_g =
浏览 1
提问于2016-03-17
得票数 28
回答已采纳
2
回答
pyspark
是否支持窗口函数(例如first、last、lag、lead)?
、
pyspark
是否支持窗口函数(例如first, last, lag, lead)? 例如,
如何
按
一列分组并按另一列排序,然后
按
SparkSQL或数据框选择每个
组
的第一行(这就像窗口函数一样)?我发现
pyspark
.sql.functions类包含聚合函数first和last,但它们不能用于
groupBy
类。
浏览 2
提问于2015-03-24
得票数 3
2
回答
从Spark GroupedData对象中选择随机项目
、
、
、
我刚开始
在
Python中使用Spark,并且一直无法解决这个问题:
在
pyspark
.sql.dataframe.DataFrame上运行
groupBy
之后df.
groupBy
('teamId')
如何
从每个结果
组
(
按
teamId分组)中选择N随机样本而不进行替换?我基本上是尝试从每个团队
中
随机选择N用户,也许一开始使用
浏览 0
提问于2015-11-17
得票数 21
回答已采纳
3
回答
PySpark
DataFrame上分组数据的熊猫式转换
、
、
、
、
如果我们有一个由一列类别和一列值组成的Pandas数据框架,我们可以通过执行以下操作来删除每个类别
中
的平均值:据我所知,不直接提供这个
按
组
/转换操作(我
在
Spark1.5.0上使用
PySpark
)。那么,实现这种
计算</
浏览 8
提问于2015-12-25
得票数 19
回答已采纳
2
回答
在
没有自定义函数的情况下,
如何
在
PySpark
上将多个数组的交集处理成单个数组?
、
、
', 2), ('g2', 'd', 4), all_intersect_elements_per_group = all_elements_per_instance.
groupBy
浏览 16
提问于2021-02-15
得票数 0
回答已采纳
3
回答
如何
在
PySpark
中
执行
groupby
并查找列的唯一项
、
、
我有一个
pySpark
数据,我想
按
一个列分组,然后
在
另一个列
中
为每个
组
找到唯一的项。
在
熊猫身上我可以做,我也想对我的火花数据做同样的。我可以
在
组
中找到项目的distictCount并计数,如下所示 .agg( fn
浏览 0
提问于2019-06-19
得票数 5
回答已采纳
2
回答
pySpark
:
groupBy
()有可能每个
组
只有一个节点吗?
、
、
、
、
我用
pySpark
计算
每组矩阵。如果Spark将任何给定
组
的行存储
在
一个节点上,则
计算
速度会更快,因此Spark可以
在
本地
计算
每个矩阵。恐怕节点间的合作需要更长的时间。map()和
groupBy
()通常都能实现这样的目标吗?如果可能的话,我应该把它指定为选项吗? 注意:矩阵包括
计算
每一行与前一行之间的距离,
在
每个(排序)
组
内。
浏览 2
提问于2016-06-10
得票数 0
回答已采纳
1
回答
Pyspark
:
如何
将行分组为N个
组
?
我
在
pyspark
脚本
中
执行df.
groupBy
().apply(),并希望创建一个自定义列,该列将我的所有行分组到N(尽可能均匀,所以行/n)
组
中
。这就是为什么我可以确保每次脚本运行时发送到我的udf函数的
组
数。 我
如何
使用
pyspark
来做这件事?
浏览 32
提问于2020-07-21
得票数 0
回答已采纳
1
回答
GroupedData的长度“类型为'GroupedData‘的对象没有len()”
、
、
、
我
在
计算
分组数据的长度时遇到了问题:gb = df.
groupBy
('A_1')print
如何
计算
gb的长度gb = df.
groupby
(['A_1'])print(l) 但在
PySpark
,我面临着问题。
浏览 3
提问于2021-11-22
得票数 0
回答已采纳
2
回答
pyspark
dataframe、
groupby
和列的方差
计算
、
、
、
我想
按
pyspark
数据帧分组,并
计算
特定列的方差。对于一般人来说,这很容易,可以这样做AVERAGES=df.
groupby
('country').agg(func.avg('clicks').alias('avg_clicks')).collect() 然而,对于方差,函数子模块
中
似乎没有任何聚合函数(我也想知道为什么,因为这是一个相当常见
浏览 7
提问于2015-08-12
得票数 5
1
回答
PySpark
按
多个时间窗口分组
、
、
、
、
我知道我们可以
按
df.
groupBy
('col1,'col2','col3')对多个列进行分组,我认为这种分组意味着它首先按col1分
组
,对于col1的每个成员,它
按
col2分
组
,依此类推。如果这是错误的,请纠正我,我昨天基本上是从
PySpark
开始的,因为一个大学项目。 我需要按4个成员对数据进行分组:2个字符串列和2个时间窗口。df.
groupBy
('col1,'col2','
浏览 15
提问于2021-02-17
得票数 1
2
回答
获取星火中RDD
中
每个键的前3位值
、
、
、
、
2), ("K1", "ddd", 9),我目前可以
在
RDD
中
显示前3个值,如下所示:("B1", "iop&q
浏览 1
提问于2018-04-08
得票数 3
回答已采纳
1
回答
对数据
中
每一行执行sql查询的熊猫udf进行优化?
、
、
、
、
我正在利用
pyspark
和熊猫udfs来加速对包含大约350万行的数据帧的
计算
。本质上,我是从符合某些条件的表中加载行。然后,我将这些数据
按
“some_col”列进行分组,大致应该将数据分成4
组
。然后,我应用一个
计算
metric_1和metric_2的函数,其中每个度量都是表
中
与当前行的某些值相匹配的条目数。最后的
计算
将在final_result
中
设置为(metric_1 / metric_2)。('chosen_
group
浏览 2
提问于2019-10-15
得票数 0
1
回答
理解Python Pandas
中
的
groupby
()
、
、
我
在
试着理解
groupby
()操作。Prey2 Parrot 24.0 Not Prey我知道
groupby
()不对原始数据集进行操作,它是
在
副本上工作的。我无法理解的是,
在
我这样做之后,代码会是什么样子:我能从视觉上理解吗?我可以理解原始数据,因为我可以看到,它是表,因此可以想象操
浏览 2
提问于2020-01-21
得票数 3
回答已采纳
1
回答
在
Spark中进行聚合的最佳方式
、
、
我
在
pySpark
中
运行它。有没有另一种方法可以根据特定的
组
计算
列的平均值,这样运行起来会更好?df = df.
groupBy
("id", "timestamp").avg("accel_lat", "accel_long", "accel_vert")
浏览 7
提问于2016-08-24
得票数 0
2
回答
GroupBy
在
PySpark
中
的优化
、
、
、
、
我有一个数据集,
在
该数据集中,我将
按
多个变量分组,使用
PySpark
计算
每个用户ID的最大值和平均值的中位数,如下所示:df = spark.read.parquet("s3a://xxx").select("id", "timestamp", "category", "value") df1 = df.
gro
浏览 21
提问于2022-01-10
得票数 0
回答已采纳
1
回答
在
pySpark
数据帧上聚合的多个条件
、
、
我有一个看起来像这样的
pySpark
数据帧:| sku| date||MLA-605502281|02/10/2016|+-------------+----------+其行为与Pandas相同,
浏览 0
提问于2016-10-27
得票数 20
回答已采纳
1
回答
在
pyspark
dataframe
中
检索最大值时遇到问题
、
、
、
、
在
我通过使用窗口和对一
组
列进行分区来
计算
pyspark
dataframe
中
每行5行内的平均数量之后 from
pyspark
.sql import functions as Fconsecutive_df = prep_df.withColumn('aveg', F.avg(prep_df['quantity']).over(window)) 我尝试使用相同的
组
进
浏览 14
提问于2020-06-19
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
你可能不知道的10个Python Pandas的技巧和特性(下)
一文读懂PySpark数据框
遇见YI算法之初识Pyspark(二)
一文读懂 PySpark 数据框
Python之数据聚合与分组运算
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券