Pyspark GroupBy和计数太慢

文章/答案/技术大牛

发布

1回答

apache-spark、pyspark、group-by、google-cloud-dataproc

我在有4个节点的dataproc集群上运行pyspark，每个节点有2个核心和8 GB RAM。我有一个dataframe，它有一个包含单词列表的列。我分解了这个专栏，并计算了出现次数- df.groupBy("exploded_col").count() 爆炸前约有78MN排。但是，运行上述代码的时间太长(超过4个小时)。

浏览 132提问于2020-07-17得票数 1

2回答

不带聚合或计数的Pyspark groupBy DataFrame

python、pyspark、pyspark-dataframes

它可以在没有聚合或计数的情况下遍历Pyspark groupBy数据帧吗？. Is there a difference in how to iterate groupby in Pyspark or have to use aggregation

浏览 54提问于2020-01-07得票数 3

回答已采纳

1回答

熊猫到火花放电环境

python、dataframe、pyspark、apache-spark-sql

[] count12 = new_df.loc[new_df[col].diff() == 1]在pyspark中没有获得所有列长度的选项。

浏览 5提问于2022-09-18得票数 1

回答已采纳

1回答

Pyspark -在多个列上聚合

python、python-2.7、apache-spark、pyspark

1880 John 0.081541 boy1880 James 0.050057 boy1880 boy 0.070703 3 在pyspark中完成下面的步骤后，我不确定如何继续

浏览 0提问于2016-03-28得票数 16

2回答

如何在火花放电中获得groupBy后每次计数的总数百分比？

pyspark

给定以下DataFrame：findspark.init()| a| 1|| a| 3|我希望计算每个类别中的项目数，并为每个计数提供一个百分比

浏览 2提问于2018-09-10得票数 7

回答已采纳

1回答

统计SPARKSQL中的重复行数

pyspark、apache-spark-sql、spark-dataframe、pyspark-sql

from pyspark import SparkContext, SparkConffrom pyspark.sql.typesimport *app_name="test"sc = SparkContext

浏览 3提问于2018-02-01得票数 11

回答已采纳

3回答

向PySpark数据帧中添加组计数列

apache-spark、pyspark、dplyr

我来自R和到PySpark，因为它的出色的火花处理，我正在努力从一个上下文映射到另一个特定的概念。在PySpark中，我可以做一些几乎同样简单的事情，如果我要查看，根据行数概括：from pyspark.sql.functionsimport col .gro

浏览 0提问于2018-02-14得票数 37

回答已采纳

2回答

找到具有列值的公共行对

pyspark

我有一个如下所示的数据集(有数千个不同的起始I和终端I)：1 11 31我需要将计数到startID和endID组合在一起的所有时间(行)，并得到如下内容：1 1 2 1 2

浏览 2提问于2020-10-04得票数 1

回答已采纳

1回答

如何根据id将多行合并为一个单元格，然后进行计数？

python、apache-spark、dataframe、pyspark

如何使用PySpark将多行合并为基于id的单个单元格？我有一个包含ids和产品的数据框架。首先，我想将具有相同id的产品合并到一个列表中，然后我想计算每个唯一列表出现的次数。SS.SEC_ID, SS.SEC_NAME输出：enter,andr-char-danny-lucas 在本例中，输出没有计数我想用PySpark而不是sql/pig来解决这个问题。

浏览 7提问于2017-12-13得票数 0

回答已采纳

2回答

删除与某些行相关的所有重复行。

python、pyspark、apache-spark-sql、pyspark-sql

3.0| 0||892383| 2.0| 0|+------+-----+----+ +------+-----+----++------+-----+----+df.dropDup

浏览 0提问于2018-07-25得票数 1

回答已采纳

1回答

如何使用pySpark将items行中的数组列单元格转换为计数？

arrays、pyspark、dataset、transformation

+ 1 ++ val3 + 2 ++---------+-------+ 代码在pySpark我寻找了许多可以帮助我的示例和函数，但我没有找到，而且由于pySpark数据集是不可变的，我没有找到转换数组和计算出现次数的方法。

浏览 15提问于2019-10-06得票数 0

回答已采纳

5回答

PySpark中的Panda的value_counts()的等价物是什么？

dataframe、count、pyspark、pandas-groupby

我有以下python/pandas命令：我在这里获取DataFrameGroupBy对象中所有列的值计数。如何在PySpark中执行此操作？

浏览 1提问于2018-06-27得票数 32

1回答

使用Spark结构化流和Python进行单词计数

python、spark-structured-streaming

此示例摘自“星火的结构化流编程指南”：from pyspark.sql.functions import explode .builder \ ).alias("word")

浏览 11提问于2021-12-14得票数 2

1回答

不带groupby的计数和非重复计数使用PySpark

python、pyspark、pyspark-sql

我有一个数据帧(testdf)，希望在另一列(booking/rental)不为null或非空(即“”)的列(memid)上获得计数和非重复计数。= ""mydf.filter("booking!=''").groupBy('booking').agg(count("patid"), countDistinct("patid")) 但我只想要总体

浏览 44提问于2018-06-05得票数 0

1回答

如何使火花放电使用自定义python？

python、apache-spark、pyspark

我所做的是： %spark.pyspark 从pyspark.sql.functions pandas_udf，PandasUDFType @pandas_udf(df.schema’，‘清关’：‘计数’，‘计数’，'sum'，‘价格指南’：‘max’，“总价格”：'sum‘pdf1 = pdf.groupby<

浏览 2提问于2018-09-05得票数 2

2回答

根据Spark 1.6数据帧上的其他字段计算每个组的不同元素

python、apache-spark、pyspark

"address":1111114, "date":20150419134543}和代码：from pyspark.sql.types import TimestampType from datetime import, '%

浏览 1提问于2016-03-17得票数 28

回答已采纳

3回答

如何从中的Row对象中获取值？

apache-spark、pyspark、spark-dataframe

为 .groupBy().mean()).head() averageCount = (wordCountsDF我得到以下错误：：getFloat AttributeError跟踪(最近一次调用)在() 1# TODO:替换为适当的代码->2 a

浏览 5提问于2016-06-23得票数 22

2回答

PySpark groupBy计数显示方法失败

apache-spark、pyspark、spark-dataframe

如果我只运行df.groupBy("eventtype").count()，它就能工作，我就可以得到DataFrame[eventtype: string, count: bigint]Traceback (most recent call last): File "/tmp/zeppelin_pysparkException(traceback.form

浏览 6提问于2017-07-19得票数 1

回答已采纳

1回答

PySpark得到列的最大值和最小非零值

python、dataframe、apache-spark、pyspark

--+--------------------+--------------------+--------------+---------+----------+ .withColumnRenamed("min(download_count)", "download_min")因为这将得到实体123和124

浏览 1提问于2020-11-03得票数 1

回答已采纳

1回答

groupBy在星火中的聚合函数计数使用

java、scala、apache-spark、pyspark、apache-spark-sql

我试图在pySpark中用一行代码进行多个操作，但不确定这对我的情况是否可行。 )我的意图是在使用timePeriod后添加count()，以获得与每个值匹配的记录计数当尝试使用groupBy(..).count().agg(..)时，我会得到异常。是否有任何方法可以同时实现count() agg().show()和打印，而无需将

浏览 3提问于2017-01-27得票数 61

回答已采纳

点击加载更多