Pyspark:添加具有groupby平均值的列_多列Pyspark上的Groupby操作_用groupby跨多个列减去列的平均值 - 腾讯云开发者社区

python、datatable、pyspark、pyspark-sql

我的PySpark数据帧中有四列： 'drivers','cars','topSpeeds','dates' 假设每个司机在不同的日期用不同的汽车达到了不同的最高速度，不同的汽车在不同的日期用不同的司机达到了不同的最高速度我可以将每辆车的司机在所有日期的最高速度的平均值</e

浏览 9提问于2019-02-20得票数 0

回答已采纳

1回答

Pyspark:添加具有groupby平均值的列

pyspark、apache-spark-sql

我有一个这样的数据帧： test = spark.createDataFrame( (1, 0, 100), (3, 1, 150), ],) 我想创建另一个列，并输入该标志的groupby的平均值 test.groupBy<

浏览 9提问于2021-02-03得票数 0

回答已采纳

1回答

如何在PySpark中获得布尔列的平均值？

python、pyspark

.agg(avg("boolean_column"))，但得到错误： "function average requires numeric types, not boolean" 怎样才能得到这样一个列的平均值

浏览 23提问于2019-06-19得票数 0

回答已采纳

2回答

多列上的Spark数据帧聚合

pyspark、apache-spark-sql、spark-dataframe

Actually I am working on pyspark code.2.01 | 1.85 | 3.42 | 4.44 |我需要通过聚合所有collectX列来查找每个元素的平均值和2.09 ||C2 | 2.93 | 1.23 |下面的代码分解了各个列的

浏览 0提问于2016-03-24得票数 1

3回答

从数据帧中获取价值

python、pyspark、type-conversion、apache-spark-sql

在pyspark中我应该怎么做呢？saleDF.groupBy("salesNum").mean()).collect()如何从数据帧中获取该值，以获得浮点数形式的

浏览 2提问于2016-06-28得票数 21

回答已采纳

1回答

如果所有值都为负值，则返回常量，但如果只有一些值为负值，则返回PySpark组。

python、dataframe、apache-spark、pyspark、apache-spark-sql

我有一个像这样的数据文件：+----+-----++----+-----+| 1| 30||如果值列是负的，我想忽略这一点，除非特定年份的所有值都是负值(年份= 2)。然后我只想显示avg(值)为-1。我正在做： df.filter(df.Value > 0).groupBy('Year').agg(avg('Value').alias('Ave

浏览 0提问于2020-11-09得票数 0

回答已采纳

1回答

在groupBy(x).agg中进行过滤，以在的不同子集上创建平均值

dataframe、pyspark、aggregate-functions

通常，当我必须进行聚合时，我使用类似于PySpark中的以下代码：现在，我实际上想要计算dataframe df的多个子集上的平均值(例如，在不同的时间窗口上，

浏览 4提问于2021-03-18得票数 1

回答已采纳

1回答

pyspark: groupby和aggregate avg，以及多列上的first

pyspark、apache-spark-sql

我有一个示例pyspark dataframe，在groupby之后，我想要计算平均值，并且是多列中的第一列，在实际情况下，我有100列，所以我不能单独计算。0| as| asd|| c| 4| 4| sd| acc|

浏览 34提问于2020-06-28得票数 0

回答已采纳

3回答

打印列中的所有类别

python、pyspark、pyspark-sql

我有一个很大的数据空间，其中有一个名为location的列，只有少数几个城市，例如：["New York", "London", "Paris", "Berlin"...]。我希望在该列中打印所有不同的值，例如，我知道是否缺少一个城市的值。既然.describe('location')方法没有帮助，我怎么能这样做呢？

浏览 1提问于2018-11-14得票数 0

回答已采纳

1回答

在Spark中进行聚合的最佳方式

apache-spark、pyspark、spark-dataframe

我在pySpark中运行它。有没有另一种方法可以根据特定的组计算列的平均值，这样运行起来会更好？df = df.groupBy("id", "timestamp").avg("accel_lat", "accel_long", "accel_vert")

浏览 7提问于2016-08-24得票数 0

2回答

除1外，所有列的星火群之和

python、apache-spark、pyspark

我有一个具有如下标题的数据集：from pyspark.sql import SparkSession import pyspark.sql.functi

浏览 3提问于2022-04-19得票数 0

1回答

PySpark中每个组的平均值

pyspark、apache-spark-sql、average

我有下面的PySpark数据帧： cust | amount | A | 5 | A | 3| C | 1 | C | 5 | 我需要按列'cust'分组，并计算每个组的平均值。data.withColumn("avg_amount"

浏览 32提问于2021-02-01得票数 0

回答已采纳

1回答

Pyspark使用列表计算整个列的平均值

python、apache-spark、pyspark、apache-spark-sql

我有一个pyspark dataframe，它有一个列，其中包含如下列表： | value | | ["1| 有没有一种方法可以用pyspark计算总体的平均值？因此，我希望具有以下值: 26.6

浏览 90提问于2020-12-19得票数 1

回答已采纳

3回答

PySpark DataFrame上分组数据的熊猫式转换

python、pandas、apache-spark、pyspark、apache-spark-sql

如果我们有一个由一列类别和一列值组成的Pandas数据框架，我们可以通过执行以下操作来删除每个类别中的平均值：据我所知，不直接提供这个按组/转换操作(我在Spark1.5.0上使用PySpark )。那么，实现这

浏览 8提问于2015-12-25得票数 19

回答已采纳

1回答

如何使用PySpark使用组的聚合填充空值

python、apache-spark、pyspark

我有一个简单的数据集，其中包含一些空值：10,Mrnull,Mr2, Miss我想用一个不同的列来填充这个分组的聚合值(在本例中是例如，标题栏的平均值是：1.5, MissAge,Title20,Mr1, Miss1.5, Miss 我见过许多使用df["Age"] = df.groupby

浏览 4提问于2019-04-24得票数 1

回答已采纳

2回答

多个列表中每个元素的焦火花平均值

list、pyspark、aggregate、embedding

我有一个有2列的df：这是一个关于它的外观的示例：| vector| id8.44,3.62,5.54,6.4]|1046091128|+--------------------+----------+ 我想要groupBy，appid，取向量的每个元素的平均值</

浏览 1提问于2022-03-04得票数 1

2回答

电火花码群函数中的一个错误

python、python-3.x、pandas、apache-spark、pyspark

chess_wc_history_game_info.csv", game_info.groupBy

浏览 12提问于2022-08-09得票数 0

2回答

寻找火花放电array<double>的均值

apache-spark、pyspark、apache-spark-sql

在火星雨中，我有一个可变长度的双数数组，我想找出它的平均值。但是，平均函数需要一个数字类型。 from pyspark.sql.functions import col imp

浏览 0提问于2019-04-03得票数 12

回答已采纳

1回答

如何在DataFrame中创建和使用新函数？

python、pandas、function、dataframe、aggregates

如何在我的DataFrame中创建新函数并使用这个新函数，以便在聚合时添加新列？从我的DataFrame中，我获得了“风向”和“温度”，对于这些列，我想将它聚合起来，并创建具有“风向”平均值和所有城市的值与平均值"aa“之间的差值以及”温度“的平均值的表。然而，在我使用函数"aa“的列中，我得到了0。问题出在

浏览 6提问于2019-10-21得票数 1

2回答

Pandas列

python、pandas

我连接了几个Pandas数据帧，现在我有一个更大的数据帧。06 1 3 0在运行df_total = df_total.groupby(['Time'])['Packets'].mean()之后，连接后的文件如下所示1.0 0.0000003.0 3.8809524.0 6.797619 5.0

浏览 1提问于2018-12-25得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用另外两列中的信息并列放置两个PySpark df列

Pyspark:添加具有groupby平均值的列

如何在PySpark中获得布尔列的平均值？

多列上的Spark数据帧聚合

从数据帧中获取价值

如果所有值都为负值，则返回常量，但如果只有一些值为负值，则返回PySpark组。

在groupBy(x).agg中进行过滤，以在的不同子集上创建平均值

pyspark: groupby和aggregate avg，以及多列上的first

打印列中的所有类别

在Spark中进行聚合的最佳方式

除1外，所有列的星火群之和

PySpark中每个组的平均值

Pyspark使用列表计算整个列的平均值

PySpark DataFrame上分组数据的熊猫式转换

如何使用PySpark使用组的聚合填充空值

多个列表中每个元素的焦火花平均值

电火花码群函数中的一个错误

寻找火花放电array<double>的均值

如何在DataFrame中创建和使用新函数？

Pandas列

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐