Pyspark中的GroupBy操作_多列Pyspark上的Groupby操作_在Pyspark中替换groupby提高Pyspark代码的性能 - 腾讯云开发者社区

pyspark、pyspark-sql、pyspark-dataframes

我有一个数据框，其中我根据纬度和经度进行了正弦距离计算。我想要找到min.distance，id和store_code。 Dataframe看起来像- +---+---------+---------+-----+-----+--------+---------++---+---------+---------+-----+-----+--------+---------+ | 1|13.031885|80.235574|29.91|73.88| 22| 1988.

浏览 6提问于2019-09-16得票数 0

回答已采纳

1回答

从Pandas groupBy到PySpark groupBy

pandas、apache-spark、pyspark

考虑一下星火DataFrame，在这里我们有很少的列。目标是对其执行groupBy操作，而不将其转换为Pandas DataFrame。等价的Pandas groupBy代码如下所示： return pd.Series({gdf = df.groupBy([

浏览 5提问于2017-03-14得票数 4

回答已采纳

3回答

向PySpark数据帧中添加组计数列

apache-spark、pyspark、dplyr

我来自R和到PySpark，因为它的出色的火花处理，我正在努力从一个上下文映射到另一个特定的概念。| 5 | 3a | 7 | 3在dplyr中，我只想说：df %>%在PySpark中，我可以做一些几乎同样简单的事情，如果我要查看，根据行数概括： from pyspark.s

浏览 0提问于2018-02-14得票数 37

回答已采纳

1回答

如何根据id将多行合并为一个单元格，然后进行计数？

python、apache-spark、dataframe、pyspark

如何使用PySpark将多行合并为基于id的单个单元格？我有一个包含ids和产品的数据框架。首先，我想将具有相同id的产品合并到一个列表中，然后我想计算每个唯一列表出现的次数。,mobile4,music输出：HOME-mobile,2cd-music-video,1ORDER BY 1cloth

浏览 7提问于2017-12-13得票数 0

回答已采纳

3回答

PySpark DataFrame上分组数据的熊猫式转换

python、pandas、apache-spark、pyspark、apache-spark-sql

如果我们有一个由一列类别和一列值组成的Pandas数据框架，我们可以通过执行以下操作来删除每个类别中的平均值：据我所知，不直接提供这个按组/转换操作(我在Spark1.5.0上使用PySpark )。我尝试使用了

浏览 8提问于2015-12-25得票数 19

回答已采纳

1回答

在Pyspark中替换groupby提高Pyspark代码的性能

apache-spark、pyspark、apache-spark-sql

我的Pyspark数据框如下所示。我必须从pyspark代码中删除group by函数，以提高代码的性能。我必须对10万个数据执行操作。,(1, ['4', '5', '6']), ], ["id"

浏览 42提问于2020-12-29得票数 0

2回答

pyspark dataframe、groupby和列的方差计算

python、pyspark、spark-dataframe、pyspark-sql

我想按pyspark数据帧分组，并计算特定列的方差。对于一般人来说，这很容易，可以这样做AVERAGES=df.groupby('country').agg(func.avg('clicks').alias('avg_clicks')).collect() 然而，对于方差，函数子模块中似乎没有任何聚合函数(我也想知道为什么，因为这是一个相当常见的</em

浏览 7提问于2015-08-12得票数 5

5回答

PySpark中的Panda的value_counts()的等价物是什么？

dataframe、count、pyspark、pandas-groupby

我有以下python/pandas命令：我在这里获取DataFrameGroupBy对象中所有列的值计数。如何在PySpark中执行此操作？

浏览 1提问于2018-06-27得票数 32

1回答

Pyspark根据一列合并不同的行

pyspark

6|+----------------+------------+-----+ 如果来自同一项运动，有没有办法将多行计数的值结合起来例如，如果Sport =高山滑雪，我会有这样的东西： +----------------+-----++----------------+-----+

浏览 10提问于2021-08-02得票数 0

回答已采纳

2回答

不带聚合或计数的Pyspark* groupBy DataFrame*

python、pyspark、pyspark-dataframes

它可以在没有聚合或计数的情况下遍历Pyspark groupBy数据帧吗？例如Pandas中的代码： for i, d in df2:Is there a difference in howto iterate groupby in Pyspark or have to use aggregation and count?

浏览 54提问于2020-01-07得票数 3

回答已采纳

1回答

在PySpark* 1.5.0中，如何根据‘x’列的值列出‘y’列的所有项？*

python、apache-spark、pyspark

以下问题是针对PySpark版本1.5.0的，因为PySpark中不断添加新特性。| x| y||foo| 1||bar| 10||qux|999|我想要这样的东西在潘达斯，我可以通过以下方式来实现这个星座：pd.groupby('x

浏览 4提问于2016-03-20得票数 1

回答已采纳

1回答

如何序列化PySpark* GroupedData对象？*

python、apache-spark、pyspark、apache-spark-sql、pyspark-sql

我在一个具有数百万条记录的数据集上运行groupBy()，并希望保存结果输出(一个PySpark GroupedData对象)，以便以后可以对其进行反序列化，并从该点恢复(根据需要在该点上运行聚合)。df.groupBy("geo_city")我希望避免将GroupedData对象转换为DataFrames或RDDs，以便将其保存为文本文件或Parquet/Avro格式

浏览 0提问于2016-07-27得票数 2

1回答

多列Pyspark上的Groupby操作

python、group-by、pyspark

我已经为pyspark dataframe中的两个特性应用了groupby和计算标准差。from pyspark.sql import functions as f cols = ['group','val1'

浏览 18提问于2019-04-15得票数 0

2回答

如何合并重复行并将所有False值更改为True，其中True是重复行中的值？

python-3.x、pandas、pyspark

所以我有一个数据帧，它有很多副本，但问题是它们是这样的- Color ID2 True 1234564 False 09875 True 0987 在本例中，我想组合所有重复的ID，并将所有内容设为True，但前提是color列中有一个True。这是我的预期输出 ID Color1 123456 True 但我希望对每一列都这样做，而不是只针对一列(在本例中是Color

浏览 22提问于2019-12-25得票数 0

回答已采纳

2回答

使用groupby或聚合将RDD或DataFrame中的每个事务中的项合并为FP增长。

python、apache-spark、pyspark、apache-spark-sql、rdd

| a| [1, 2, 5]|| 2| c| [1, 2]|我如何在PySpark中做到这一点？

浏览 0提问于2017-08-08得票数 3

回答已采纳

1回答

将Groupby* with Join Spark SQL查询更改为Spark Dataframe*

python

我最初使用Spark SQL编写脚本，但现在出于性能和其他原因，我尝试将Sql查询转换为PySpark数据帧。Spark Dataframe替换上面的SQL查询时，我写道但我在这里得到一个错误

浏览 17提问于2018-09-04得票数 2

回答已采纳

1回答

Pyspark 2.4中的GroupedData对象

python-3.x、pyspark-sql

我有一个以下格式的数据： +------+-------------+-----------------+--------------------+ |Serial| respID|11|1_10001070394| 11|Interviewer Serve...| 48| Male| No| 我可以通过以下代码在python中对较小的数据集执行此操作- df.groupby(['respID','Ser

浏览 24提问于2019-05-02得票数 1

1回答

基于键的DF上的pySpark协同运算

pyspark

我想对两个关系A和B分别使用键A_key和B_key执行coGroup操作。我尝试过在单个关系上执行groupBy操作，然后连接它们，但我发现在PySpark DF的情况下，您不能对分组的数据执行连接操作。

浏览 1提问于2017-07-13得票数 0

1回答

如何在pyspark中对dataframe进行算术运算？

apache-spark、pyspark、apache-spark-sql

我需要在PySpark中执行同样的操作。到目前为止，就像在上面的代码中使用nvl一样，我已经在Pyspark中使用了fill()将null值替换为0。"]) y = t3.select("units_inflow_can").groupby()").groupby().sum().sho

浏览 69提问于2021-02-16得票数 0

1回答

分组依据列表中的元素

python、pyspark、pyspark-sql

我是PySpark的新手。我创建了spark dataframe，并且我有一个" countries“列，其中包含国家列表。如何通过存在于国家/地区列表中的单个国家/地区来groupBy我的数据帧 +-----------------++-----------------+ | [

浏览 4提问于2019-10-09得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云