Pyspark为什么GBMClassifier结果上的GroupBy (和带有count()的GroupBy )产生不一致的结果_Pyspark:在groupby之后计算min和avg的错误结果_在相对较小的数据帧上，PySpark .groupBy()和.count()速度较慢 - 腾讯云开发者社区

group-by、pyspark、bigdata、amazon-emr、precision-recall

在Pyspark中，我加载了一个大型数据集，并通过我的GBMClassifier运行它。在训练/拟合之前，对输入数据执行groupby会产生预期的结果(这些值加起来等于预期的计数，等等)。然而，在拟合测试数据之后，对预测使用GroupBy并不能给出可重现的结果。我试图产生一个基本的精确度/召回率，所以我试图将其分成标签和预测两

浏览 28提问于2019-05-03得票数 0

回答已采纳

1回答

"df['var'].map(df2)“和"df.var.map(df2)”总是产生相同的结果吗？

python、pandas、dataframe

我有一个带有列df的dataframe df2，还有一个带有var和var2列的dataframe df2。两个数据格式中的两个列var完全相同。在我的示例中，df['var'].map(df2)和df.var.map(df2)得到了相同的结果。我想问一下，这是否只是我的特定数据集中的巧合，还是总是如此。非常感谢!更新：在我的示例中，下面的代

浏览 2提问于2021-03-20得票数 1

回答已采纳

1回答

GroupBy in PySpark与群熊猫

pyspark、group-by、pandas-groupby

我找不到熊猫.groupby()和PySpark .groupBy()之间的区别(用在DataFrame上)。有什么不同吗？我也得到了同样的结果。如果有差异，我如何知道什么时候使用它，以防我同时处理PySpark。谢谢!

浏览 5提问于2022-07-05得票数 0

回答已采纳

1回答

如何在dataframe spark中使用groupby进行计数排序

python、pyspark

from pyspark.sql.functions import hour hour = checkin.groupBy(hour("date").alias("hour")).count().show

浏览 71提问于2021-07-14得票数 0

回答已采纳

1回答

PySpark中的聚集稀疏向量

apache-spark、pyspark、apache-spark-sql、apache-spark-ml

我有一个Hive表，它包含与每个文档相关联的文本数据和一些元数据。看上去像这样。from pyspark.ml.feature import Tokenizer现在我想按月分组并返回如下内容： month word count

浏览 2提问于2017-01-03得票数 5

回答已采纳

1回答

pySpark组的条件累加

pyspark-sql

pySpark中的新手提出了一个简单的问题:我有一个df，我想要进行一个条件累加，如果分母与0不同，则返回聚合结果。我的试探性产生了一个错误：exprs=[(sum("A")+(sum("B"))/sum("C") if sum("C")!=0 else 0 ] grouped_df=new_df.groupby(

浏览 3提问于2017-09-19得票数 2

回答已采纳

1回答

与单独运行相比，具有多个聚合的吡火花旋转数据要长/冻结得多。

apache-spark、pyspark、pivot

假设这一步骤是必要的，它似乎无休止地运行在16节点4 cpu上，每个cpu的内存为30 16，cpu利用率为100% (4)。见我做错了什么？)df_groupby.pivot(pivot_col, pivot_distinct_values).agg(a).count<

浏览 1提问于2021-01-28得票数 1

5回答

组和计数在sql中是如何工作的

sql、mysql、count、group-by

浏览 3提问于2010-10-28得票数 3

回答已采纳

1回答

火花放电数据帧中分组元素的分组计数与划分

python、apache-spark、pyspark

我在pyspark中有一个数据框架，如下所示。我想做groupby和category列在data frame中的计数+--------+----++--------+----+| cat1| 5|我得到了我想要的结果。data frame有3天的记录。我想计算这3天的平均计数。我想要的<

浏览 1提问于2018-05-16得票数 2

回答已采纳

2回答

大型数据仓库上的Pyspark

dataframe、apache-spark、pyspark、apache-zeppelin

我们有一个非常大的，我们需要在它上执行一个groupBy操作。我们试过了它花了很长时间(它已经运行了超过17小时，但没有结果)。我也试过但据我所知，这种行为是一样的。我知道，在这么大的数据量上

浏览 0提问于2020-08-27得票数 0

5回答

PySpark -获取重复行的索引

python、apache-spark、pyspark

假设我有一个PySpark数据框，如下所示：|a |b |c |d ||1 |0 |1 |2 ||1 |0 |1|2 |+--+--+--+--++--+--+--+--+--++--+--+--+--+--+|0 |2 |0 |1 |0 ||0 |4 |3 |1 |0 | +--+--+--

浏览 2提问于2018-06-15得票数 6

3回答

星火数据组不计算空值。

sql、apache-spark、group-by、null、apache-spark-sql

我有一个星星之火DataFrame，它由一个与计数聚合的列组成：|a |count(a) || null| 0|+---------+----------------+ df.selec

浏览 2提问于2017-09-18得票数 4

回答已采纳

1回答

pyspark groupby使用字符串groupby键在输出中生成多行

sql、pyspark

pyspark groupby操作不会为大型数据集生成唯一的组键 .groupBy('key') \例如，上面的查询返回groupBy列(键)的多行。groupby列(‘key’)的数据类型为字符串。key1, 10key1, 05 在Spark 2.4.3和2.3

浏览 12提问于2019-11-12得票数 0

回答已采纳

2回答

Groupby/聚合显示以前应该过滤掉的组

python、pandas、group-by

我有一个带有Size栏的熊猫Size，我先在它上过滤，然后按组分组并计数记录。结果还包含以前过滤掉的组的行，但计数为0： df[df["Size"].isin(("XXS", "XS", "S", "M", "L", "XL", "XXL"))] .

浏览 8提问于2022-11-18得票数 0

回答已采纳

1回答

用Python实现Apache Spark和groupBy的相关性

python、apache-spark、correlation

我是Python和Apache Spark的新手，正在尝试理解函数"pyspark.sql.functions.corr (val1，val2)“是如何工作的。我有汽车品牌，年龄和价格的大型数据框架。我想要得到每个汽车品牌的年龄和价格之间的相关性。我有两个解决方案：get_all_maker = data.groupBy("brand

浏览 17提问于2019-10-27得票数 0

1回答

从Pandas groupBy到PySpark groupBy

pandas、apache-spark、pyspark

考虑一下星火DataFrame，在这里我们有很少的列。目标是对其执行groupBy操作，而不将其转换为Pandas DataFrame。等价的Pandas groupBy代码如下所示： return pd.Series({gdf = df.groupBy([

浏览 5提问于2017-03-14得票数 4

回答已采纳

1回答

从Scala Spark到PySpark的熵计算转换

scala、apache-spark、pyspark、apache-spark-sql、pyspark-sql

("select cluster as _1, count(*) as _2 from test group by cluster, label order by cluster desc") result.collect() 它正在工作并输出所需的结果： Array[org.apache.spark.sql.Row

浏览 27提问于2019-12-29得票数 0

回答已采纳

1回答

在pyspark中分组时，对另一列中满足额外条件的元素进行计数

python、python-3.x、pyspark

以下pyspark命令 df = dataFrame.groupBy("URL_short").count().select("URL_short", col("count").alias("NumOfReqs")) 创建了以下结果。dataFrame中，我有一个名为success的列，其类型为text。在结果中，我希望有一个额外的列，例如，NumOfSuccess，它计算

浏览 19提问于2018-12-18得票数 1

回答已采纳

1回答

熊猫群()和agg()方法在列上的混淆

python、pandas、dataframe、pandas-groupby

我能检查一下和 df[['column1', 'column2']].groupby('column1').agg({'column2': 'mean', 'column2&#x

浏览 6提问于2022-02-28得票数 1

回答已采纳

1回答

不带groupby的计数和非重复计数使用PySpark

python、pyspark、pyspark-sql

我有一个数据帧(testdf)，希望在另一列(booking/rental)不为null或非空(即“”)的列(memid)上获得计数和非重复计数。testdf100 Y 120 Y预期结果：(对于预订列不为空/非空)count(memid) count(distinct memid) 3

浏览 44提问于2018-06-05得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云