如何在PySpark DataFrame中的GroupBy和聚合之后传递第三方列？

文章/答案/技术大牛

发布

1回答

、、、

我有一个Spark DataFrame，比方说df，我需要对它应用一个GroupBy col1，通过col2的最大值聚合，并传递相应的col3值(这与groupBy或聚合无关)。700| 12 || 2| 800| 15 |+-----+-----+-----+ 我可以很容易地执行groupBy和聚合，以

浏览 23提问于2021-02-03得票数 0

回答已采纳

1回答

当sum()列时，我得到错误AttributeError：'DataFrame‘对象没有属性'sum’

、、

我有这样的数据：|count| country|| 12| Ireland|+-----+--------+ AttributeError: 'DataFrame' object has no attribute'sum' 我确实导入了from pyspark.sql

浏览 3提问于2017-05-29得票数 1

1回答

在pyspark中的情况下的总和

、

我正在尝试将hql脚本转换为pyspark。我正在努力在groupby子句之后的聚合中实现case when语句的总和。例如： SUM(f.when((col1 == 'ABC' | col2 == 'XYZ'), 1).otherwise(0))) 在pysp

浏览 0提问于2016-11-23得票数 1

回答已采纳

2回答

熊猫:有条件的分组计算

、

假设我有一个带有键的表(例如，customer )和两个数字列C1和C2。我希望按键(customer)对行进行分组，并在其列上运行一些聚合器，如sum和mean。在计算组聚合器之后，我想将结果分配回DataFrame中的每个客户行(因为每个行都添加了一些客户范围的特性)。我能看到我能做一些像 df['F1'] = df.groupby

浏览 5提问于2014-06-16得票数 5

回答已采纳

1回答

多列上的多聚合

、、

我使用Python在Pyspark框架中。我试图使用groupby在不同的列上应用不同的聚合。我有一个包含col1、col2、col3、col4列的df，我想做这样的事情：df.groupby("col1").sum("col2", "col3").avg("col4") 但是我发现了一个错误："/usr/l

浏览 4提问于2019-09-27得票数 0

回答已采纳

1回答

使用countDistinct扭曲数据

、

我有一个包含3列的PySpark DataFrame：‘客户’，‘产品’，‘日期’。我想运行一个groupBy操作： df.groupBy("product", "date").agg(F.countDistinct("client")) 所以我想统计一下每天购买产品的客户数量。这会导致巨大的数据倾斜(实际上，它会因为内存而导致错误)。我一直在学习腌制技术。据我所知，它可以与'sum

浏览 32提问于2020-07-10得票数 1

回答已采纳

1回答

用火花放电写自定义的联非新议程

、、、

我需要编写一个自定义的pySpark，我遇到了这个例子。在类似的行中，如线程的最后一部分所示，我提出了以下函数 StructField("key([[gr]+[x]+[y]+[w]+[z]+[p]]) 如代码所示，我希望创建一个定制<e

浏览 1提问于2019-04-04得票数 1

1回答

Parquet文件中groupby的最佳实践

、、、

为了生成一个count聚合，我们需要对几个列进行分组。我们目前的战略是：读取Parquet文件(Dask或pyspark)，并在dataframe的索引上运行groupby。对于Parquet文件上高效的</e

浏览 2提问于2017-07-09得票数 3

2回答

Pyspark将列列表放入聚合函数

、、、

我有一个关于Pyspark中的udf的问题和一个具体的案例。我正在尝试创建一个简单的、可重用的函数来聚合不同级别和组上的值。输入应为：现有数据帧 group by的变量(单列或列表) 要聚合的变量(同上) 要应用的函数(可以是一个特定的函数，也可以是它们的列表)。我保持简单的</em

浏览 60提问于2020-11-26得票数 0

回答已采纳

3回答

将pyspark groupedData对象转换为spark Dataframe

我必须在pyspark数据帧上进行2级分组。我的试探性的：grouped_df.groupby(["C"]).count()'GroupedData' object has no attribute 'groupby' 我想我应该首先将分组的对象转换为<e

浏览 2提问于2017-10-18得票数 7

回答已采纳

2回答

对dataframe中的一列求和，并以int形式返回结果

、、

我有一个包含一列数字(数量)的pyspark数据帧。我需要对该列(Amount)求和，然后将结果作为一个python变量中的int返回。数据集如下所示：1/1/2013,U2_P1,p@c.com,100,P_P 按总和进行日期分组和聚合。groupby_revenue = df.groupby(['date']).sum

浏览 2提问于2018-09-20得票数 1

1回答

与单独运行相比，具有多个聚合的吡火花旋转数据要长/冻结得多。

、、

该命令看起来如下：df_aggregate_and_pivot = df_groupby.pivot('day').agg(*aggs)df_grou

浏览 1提问于2021-01-28得票数 1

1回答

Microsoft Spark聚合方法

、、

我正在使用Microsoft.Spark Spark API并将GroupBy应用于DataFrame对象。我想在分组后将Agg应用于多个列。在pyspark中，我会用下面这样的东西来表达我想要实现的目标 new_df = df.groupBy("customer_id") func.mean("a").alias使用.NET应用程序接口，我已经设置了DataFrame</e

浏览 18提问于2021-10-01得票数 0

回答已采纳

2回答

将‘`skipna`’参数传递给‘`agg`’

、、、、

当我在一个skipna=False上使用agg方法时，我想设置DataFrame。import pandas as pddf = pd.DataFrame({"A": [1, 2], "B":np.nan, np.nan], "C": [0, 0]}) # th

浏览 8提问于2022-09-07得票数 4

1回答

熊猫群:如何计算占总数的百分比？

、

如何计算在groupby中显示总数%的列import numpy as npdf= pd.DataFrame(np.random.randint(5,8,(10,4)), columns=['a','b','c','d']) g = df.

浏览 2提问于2017-10-12得票数 2

回答已采纳

1回答

PySpark相当于熊猫的群体分类？

、、、、

在Pandas上，我们可以按一个分类系列进行分组，然后在聚合时，它会显示所有的类别，不管它是否包含任何记录。import pandas as pd cuts = pd.cut(df.Age, bins=[0, 11, 30, 60]) df.Age.groupby(cuts).agg(mean="mean", occurrences="size")

浏览 13提问于2022-10-24得票数 1

回答已采纳

1回答

聚合一列，但在选择中显示所有列

、、

在按日期列分组行时，我尝试显示列的最大值。所以我尝试了这段代码 .groupBy('DATE')\但是产出看起来是这样的：| DATE|max(CLOSE)||1987-05-08|51.4

浏览 2提问于2020-07-24得票数 2

回答已采纳

2回答

使用字典应用聚合时的Pyspark列名别名

、、

我正在将聚合函数应用于pyspark中的数据框架中。我使用字典传递列名和聚合函数。df.groupBy(column_name).agg({"column_name":"sum"}) 现在，我想对使用聚合方法生成的这个列应用一个别名。有办法吗？我使用字典方法的原因是聚合将根据输入参数动态应用。所以基本上就像

浏览 16提问于2022-02-23得票数 2

1回答

使一个函数成为.agg()在groupBy语句中的组件，将生成一个AssertionError

、、

= spark.createDataFrame(spark_dataframe)我按ID对数据进行分组，并希望将应用于函数中的聚合。因为在许多不同的应用程序中应用了相同的聚合，所以这在代码中创建了一个模块化。汇总的功能： s

浏览 3提问于2020-07-01得票数 1

回答已采纳

8回答

为PySpark* DataFrame聚合重命名列*

、、、

我正在用PySpark DataFrames分析一些数据。假设我有一个正在聚合的DataFrame df： .agg({"money":"sum"}))group137461285853C 271179590646 聚合工作得很好，

浏览 29提问于2015-05-01得票数 102

回答已采纳

点击加载更多