Pyspark 2.4中的GroupedData对象_TypeError:在pyspark dataframe中不能迭代“GroupedData”对象_查看Pyspark对象中的文本 - 腾讯云开发者社区

python、pyspark、apache-spark-sql、pyspark-sql

我试图在GroupedData 2中计算PySpark对象的方差，而在中，我没有看到任何用于计算方差的内置函数。from pyspark.sql import

浏览 3提问于2017-10-21得票数 0

回答已采纳

1回答

如何序列化PySpark GroupedData对象？

python、apache-spark、pyspark、apache-spark-sql、pyspark-sql

我在一个具有数百万条记录的数据集上运行groupBy()，并希望保存结果输出(一个PySpark GroupedData对象)，以便以后可以对其进行反序列化，并从该点恢复(根据需要在该点上运行聚合)。df.groupBy("geo_city")我希望避免将GroupedData对象转换为DataFrames是否有其他有效<em

浏览 0提问于2016-07-27得票数 2

1回答

星火分组数据表详细信息

python、dataframe、pyspark、spark-dataframe

如何实现分组spark-dataframe的密钥？pyspark.sql.group.GroupedData对象包括什么？

浏览 0提问于2018-05-12得票数 0

回答已采纳

3回答

将pyspark groupedData对象转换为spark Dataframe

pyspark-sql

我必须在pyspark数据帧上进行2级分组。我的试探性的：grouped_df.groupby(["C"]).count()'GroupedData' object has no attribute 'groupby' 我想我应该首先将分组的对象转换为pySpark

浏览 2提问于2017-10-18得票数 7

回答已采纳

4回答

在PySpark中对GroupedData应用UDF(带功能python示例)

python、apache-spark、pyspark、apache-spark-sql、user-defined-functions

.groupby('A')我想在PySpark中运行它，但在处理pyspark.sql.group.GroupedData对象时遇到了问题。groupby('A')它会返回 KeyError

浏览 1提问于2016-10-13得票数 43

1回答

使用字典变量的平均电火花群

pyspark、pyspark-sql

我正在尝试使用mean作为字典变量来执行的均值。from pyspark.sql import functions as Fdf.groupby('name').'AttributeError GroupedData object has no attribute _func' 我也尝试过从GroupedData类导入pyspark.sql.group类的均值函数，但同样<em

浏览 0提问于2018-10-09得票数 0

回答已采纳

1回答

GroupedData的长度“类型为'GroupedData‘的对象没有len()”

python、pyspark、group-by、apache-spark-sql

我在计算分组数据的长度时遇到了问题：gb = df.groupBy('A_1')print如何计算gb的长度gb = df.groupby(['A_1'])print(l) 但在PySpark，我面临着问题。

浏览 3提问于2021-11-22得票数 0

回答已采纳

2回答

groupBy和orderBy一起使用

sorting、pyspark、group-by、sql-order-by

你好，我想实现这样的目标我的数据如下：flightData2015.selectExpr("*").groupBy("DEST_COUNTRY_NAME").orderBy("count").show()AttributeError：'GroupedData<

浏览 4提问于2022-03-01得票数 0

回答已采纳

1回答

浏览 24提问于2019-05-02得票数 1

2回答

在spark dataframe中执行透视时，'GroupedData‘对象没有属性’show

python、pandas、apache-spark、dataframe、pyspark

这是我的数据集， Out[75]: |customer_id| name|spDF.groupBy('name').pivot('name', values=None)<pyspark.sql.group.GroupedData at 0x7f0ad03750f094354082e956> in <module>(

浏览 2提问于2018-08-13得票数 8

回答已采纳

1回答

如何在pyspark* dataframe中获取列的唯一值并存储为新列*

python、pandas、pyspark

基本上，我想知道某个客户在其他数据集中购买了多少品牌，并将其重命名为change brand，以下是我在Pandas中所做的 firstvalue=firstvalue.merge((pd.DataFrame中所做的(没有合并) fd_subsprofile.groupBy("msisdn")\ .withColumn('hpbrand_change_num')\ .reset_ind

浏览 76提问于2021-08-30得票数 0

回答已采纳

1回答

TypeError:在pyspark中不能迭代“GroupedData”对象

python、pyspark

我使用的是spark版本2.0.1 & python 2.7。=['country', 'state_id', 'airport', 'airport_id'])运行此代码时，我收到以下错误消息 TypeError: 'GroupedData

浏览 3提问于2017-10-17得票数 1

1回答

TypeError:在pyspark* dataframe中不能迭代“GroupedData”对象*

python、apache-spark、pyspark、apache-spark-sql

我有一个带有GPS点的星火数据帧sdf，看起来像这样： d = {'user': ['A', 'A', 'A', 'A', 'A', 'A', 'B', 'B', 'B', 'C', 'C', 'C'02-04| 10| +----+------------------+-------------------+--

浏览 16提问于2021-04-12得票数 0

回答已采纳

1回答

将pyspark* groupedData转换为pandas DataFrame*

python、pandas、pyspark、apache-spark-sql、spark-dataframe

我需要通过Spark分组一个大型数据集，我将其加载为两列的Pandas数据框架，然后重新转换为Pandas:基本上是做Pandas -> 'pyspark.sql.group.GroupedData‘-两列中的元素都是整数，分组后的数据需要以列表的形式存储，如下所示：1 33 8... spark_df = spark.createDataFrame(d

浏览 1提问于2017-08-03得票数 1

1回答

熊猫群(‘col1’).col2.head()

group-by、pyspark、spark-dataframe、sample

我有一个，对于具有给定列值(col1)的每一组行，我想获取(col2)中值的示例。col1的每个可能值的行数可能差别很大，所以我只是在寻找每种类型的集合数，比如10。也许有更好的方法来做到这一点，但自然的方法似乎是一个df.groupby('col1')我知道火花数据不是熊猫的数据，但这是一个很好的类比

浏览 0提问于2018-05-09得票数 2

回答已采纳

1回答

基于一列将pyspark.sql dataFrame拆分为多个表

python、dataframe、pyspark、pyspark-sql

给定一个pyspark.sql.dataframe.DataFrame x：name day earnings revenue Oliver 1 100 44 Oliver54 John 3 33 10 John 4 82 82 是否可以根据名称列(作为索引)将表拆分为两个表，并将这两个表嵌套在同一个对象下11 John 2 415 54 John 3 33 10 John 4 82

浏览 0提问于2018-10-09得票数 0

1回答

PySpark中加权均值的计算

python、apache-spark、pyspark

我在试图计算电火花的加权平均值，但没有取得很大进展。workclass, final_weight): pyspark.sql.types.IntegerType())df.groupby('k').agg(weighted_mean_udaf(接受多个

浏览 6提问于2016-08-08得票数 5

回答已采纳

1回答

Redux，提取和在何处使用.map

json、reactjs、redux、fetch、redux-thunk

考虑一下这种情况：在本例中，我使用矩进行一些日期修改，并在UI中进行分组。我查看了堆栈，发现了一个，但是我并不觉得它有我想要的清晰性。我应该在哪里使用.map创建包含格式化和分组日期的新对象？在分派之前，我应该在api调用或redux操作中操作原始的json吗？在将数据放入存储区并将其视为不可变状态之前，可以添加属性并更改对象，如下面所示，service["mStartDate"]

浏览 5提问于2017-03-14得票数 0

回答已采纳

1回答

Pyspark Groupby创建列

python、apache-spark、pyspark、group-by

在Pyspark中，我需要按ID分组并创建四个新列(min，max，std，ave)。from pyspark.sql import functions as F w = (Window.orderBy(F.coldf.groupby("ID").select('rpm', f.avg('rpm').over(w).alias('hr1_avg')) 但是，对于这两个命令，我都得到了这

浏览 23提问于2020-09-22得票数 1

回答已采纳

1回答

我希望行在JavaScript中具有类型为wise的列。有可能吗？

javascript、arrays、json、oop

我有一个多类型的数组，例如超时或超时、突破、中断等等。

浏览 2提问于2022-01-12得票数 -1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

GroupedData上的方差计算

如何序列化PySpark GroupedData对象？

星火分组数据表详细信息

将pyspark groupedData对象转换为spark Dataframe

在PySpark中对GroupedData应用UDF(带功能python示例)

使用字典变量的平均电火花群

GroupedData的长度“类型为'GroupedData‘的对象没有len()”

groupBy和orderBy一起使用