在PySpark groupBy中，如何按组计算执行时间？_在python中，在每个组上按groupby进行采样_在Eloquent中按groupBy计算的列总和 - 腾讯云开发者社区

、、、

我正在为一个大学项目使用PySpark，其中我有大量的数据帧，并且我使用groupBy应用了一个PandasUDF。基本上，调用如下所示： df.groupBy(col).apply(pandasUDF) 我在我的Spark配置(SparkConf().setMaster('local[10]'))中使用了10个内核目标是能够报告每个组运行我的代码所用的时间。我想要每个组完成的时间，这样我就可以取平均值。我对计算标准差也很感兴趣。我现在正在使用清理过

浏览 28提问于2021-04-29得票数 1

回答已采纳

2回答

星火中映射到ResultIterable的映射函数

、

rdd = sc.parallelize((('A',('a',1)),('B',('b',3)),('A',('c',3)))) subG

浏览 7提问于2017-05-11得票数 0

2回答

根据Spark 1.6数据帧上的其他字段计算每个组的不同元素

、、

我尝试在Spark数据帧中按日期分组，并为每个组计算一列的唯一值：{"name":"Yin", "address":1111111, "date":20151122045510}, '%Y%m%d%H%M%S'), TimestampType())df_g =

浏览 1提问于2016-03-17得票数 28

回答已采纳

2回答

pyspark是否支持窗口函数(例如first、last、lag、lead)？

、

pyspark是否支持窗口函数(例如first, last, lag, lead)？例如，如何按一列分组并按另一列排序，然后按SparkSQL或数据框选择每个组的第一行(这就像窗口函数一样)？我发现pyspark.sql.functions类包含聚合函数first和last，但它们不能用于groupBy类。

浏览 2提问于2015-03-24得票数 3

2回答

从Spark GroupedData对象中选择随机项目

、、、

我刚开始在Python中使用Spark，并且一直无法解决这个问题:在pyspark.sql.dataframe.DataFrame上运行groupBy之后df.groupBy('teamId') 如何从每个结果组(按teamId分组)中选择N随机样本而不进行替换？我基本上是尝试从每个团队中随机选择N用户，也许一开始使用

浏览 0提问于2015-11-17得票数 21

回答已采纳

3回答

PySpark DataFrame上分组数据的熊猫式转换

、、、、

如果我们有一个由一列类别和一列值组成的Pandas数据框架，我们可以通过执行以下操作来删除每个类别中的平均值：据我所知，不直接提供这个按组/转换操作(我在Spark1.5.0上使用PySpark )。那么，实现这种计算</

浏览 8提问于2015-12-25得票数 19

回答已采纳

2回答

在没有自定义函数的情况下，如何在PySpark上将多个数组的交集处理成单个数组？

、、

', 2), ('g2', 'd', 4), all_intersect_elements_per_group = all_elements_per_instance.groupBy

浏览 16提问于2021-02-15得票数 0

回答已采纳

3回答

如何在PySpark中执行groupby并查找列的唯一项

、、

我有一个pySpark数据，我想按一个列分组，然后在另一个列中为每个组找到唯一的项。在熊猫身上我可以做，我也想对我的火花数据做同样的。我可以在组中找到项目的distictCount并计数，如下所示 .agg( fn

浏览 0提问于2019-06-19得票数 5

回答已采纳

2回答

pySpark: groupBy()有可能每个组只有一个节点吗？

、、、、

我用pySpark计算每组矩阵。如果Spark将任何给定组的行存储在一个节点上，则计算速度会更快，因此Spark可以在本地计算每个矩阵。恐怕节点间的合作需要更长的时间。map()和groupBy()通常都能实现这样的目标吗？如果可能的话，我应该把它指定为选项吗？注意：矩阵包括计算每一行与前一行之间的距离，在每个(排序)组内。

浏览 2提问于2016-06-10得票数 0

回答已采纳

1回答

Pyspark:如何将行分组为N个组？

我在pyspark脚本中执行df.groupBy().apply()，并希望创建一个自定义列，该列将我的所有行分组到N(尽可能均匀，所以行/n)组中。这就是为什么我可以确保每次脚本运行时发送到我的udf函数的组数。我如何使用pyspark来做这件事？

浏览 32提问于2020-07-21得票数 0

回答已采纳

1回答

GroupedData的长度“类型为'GroupedData‘的对象没有len()”

、、、

我在计算分组数据的长度时遇到了问题：gb = df.groupBy('A_1')print如何计算gb的长度gb = df.groupby(['A_1'])print(l) 但在PySpark，我面临着问题。

浏览 3提问于2021-11-22得票数 0

回答已采纳

2回答

pyspark dataframe、groupby和列的方差计算

、、、

我想按pyspark数据帧分组，并计算特定列的方差。对于一般人来说，这很容易，可以这样做AVERAGES=df.groupby('country').agg(func.avg('clicks').alias('avg_clicks')).collect() 然而，对于方差，函数子模块中似乎没有任何聚合函数(我也想知道为什么，因为这是一个相当常见

浏览 7提问于2015-08-12得票数 5

1回答

PySpark按多个时间窗口分组

、、、、

我知道我们可以按df.groupBy('col1,'col2','col3')对多个列进行分组，我认为这种分组意味着它首先按col1分组，对于col1的每个成员，它按col2分组，依此类推。如果这是错误的，请纠正我，我昨天基本上是从PySpark开始的，因为一个大学项目。我需要按4个成员对数据进行分组:2个字符串列和2个时间窗口。df.groupBy('col1,'col2','

浏览 15提问于2021-02-17得票数 1

2回答

获取星火中RDD中每个键的前3位值

、、、、

2), ("K1", "ddd", 9),我目前可以在RDD中显示前3个值，如下所示：("B1", "iop&q

浏览 1提问于2018-04-08得票数 3

回答已采纳

1回答

对数据中每一行执行sql查询的熊猫udf进行优化？

、、、、

我正在利用pyspark和熊猫udfs来加速对包含大约350万行的数据帧的计算。本质上，我是从符合某些条件的表中加载行。然后，我将这些数据按“some_col”列进行分组，大致应该将数据分成4组。然后，我应用一个计算metric_1和metric_2的函数，其中每个度量都是表中与当前行的某些值相匹配的条目数。最后的计算将在final_result中设置为(metric_1 / metric_2)。('chosen_group

浏览 2提问于2019-10-15得票数 0

1回答

理解Python Pandas中的groupby()

、、

我在试着理解groupby()操作。Prey2 Parrot 24.0 Not Prey我知道groupby()不对原始数据集进行操作，它是在副本上工作的。我无法理解的是，在我这样做之后，代码会是什么样子：我能从视觉上理解吗？我可以理解原始数据，因为我可以看到，它是表，因此可以想象操

浏览 2提问于2020-01-21得票数 3

回答已采纳

1回答

在Spark中进行聚合的最佳方式

、、

我在pySpark中运行它。有没有另一种方法可以根据特定的组计算列的平均值，这样运行起来会更好？df = df.groupBy("id", "timestamp").avg("accel_lat", "accel_long", "accel_vert")

浏览 7提问于2016-08-24得票数 0

2回答

GroupBy在PySpark中的优化

、、、、

我有一个数据集，在该数据集中，我将按多个变量分组，使用PySpark计算每个用户ID的最大值和平均值的中位数，如下所示：df = spark.read.parquet("s3a://xxx").select("id", "timestamp", "category", "value") df1 = df.gro

浏览 21提问于2022-01-10得票数 0

回答已采纳

1回答

在pySpark数据帧上聚合的多个条件

、、

我有一个看起来像这样的pySpark数据帧：| sku| date||MLA-605502281|02/10/2016|+-------------+----------+其行为与Pandas相同，

浏览 0提问于2016-10-27得票数 20

回答已采纳

1回答

在pyspark* dataframe中检索最大值时遇到问题*

、、、、

在我通过使用窗口和对一组列进行分区来计算pyspark dataframe中每行5行内的平均数量之后 from pyspark.sql import functions as Fconsecutive_df = prep_df.withColumn('aveg', F.avg(prep_df['quantity']).over(window)) 我尝试使用相同的组进

浏览 14提问于2020-06-19得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云