groupby性能 - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

改进groupby()性能

python、pandas、group-by、pandas-groupby

14 2 0 0 1其中，我想通过‘id’列来分组： df.groupby

浏览 1提问于2021-11-29得票数 1

回答已采纳

0回答

Dask groupby date性能

python、pandas、dask

')].items(): x += v我很惊讶pandas在groupby+ aggregate操作上比dask快，例如：res = ddf.groupby('dt').apply(f).compute()对比：re

浏览 2提问于2018-07-17得票数 1

1回答

删除groupby并优化pandas代码

python、pandas

我正在尝试替换for循环，以便在pandas中获得更好的性能。在pandas中使用for循环是性能杀手，请在许多博客中阅读它。现在，我必须应用一些逻辑来设置项目和按emp_id分组。代码块如下所示。现在，下面的代码可以工作，但是抱怨与性能有关。我不能确定删除groupby，有没有其他技术可以让我获得更高的性能？emp_groups = self.df.groupby("emp_id")

浏览 4提问于2020-11-16得票数 0

1回答

具有最大聚合性能的Pandas groupby函数速度较慢。groupby性能改进

python、pandas、numpy、dataframe、pandas-groupby

df.groupby(['col1']).agg({'col2': 'max'}).reset_index()df.groupby(['col1']).agg({'col2': 'max'}).reset_index() 1.97 s ± 42 ms per loop (mean ± std

浏览 0提问于2020-03-22得票数 0

1回答

Scala星星之火:所有行的所有列之和

scala、apache-spark

我可以很容易地用但我不确定groupBy()是否会增加额外的性能影响，或者仅仅是糟糕的风格。我已经看过了它跳过了(我认为是不必要的groupBy)，但是有它自己的丑陋。使用.groupBy().<aggOp>()和使用

浏览 3提问于2020-02-28得票数 2

回答已采纳

1回答

我们是在dataframe上使用groupBy还是使用reduceBy

apache-spark、group-by、spark-dataframe

而在groupBy中，apache中的dataframe会触发并在以后使用聚合，并在dataframe中使用另一列。有什么性能问题吗？reduceBy是一个更好的选择吗？df.groupBy("primaryKey").agg(max("another column"))

浏览 0提问于2018-03-27得票数 3

回答已采纳

1回答

我注意到在调用groupby和申请pandas dataframe时，性能非常慢(比使用纯python慢100倍以上)。在下面的例子中，函数对每一行单独操作，但我的实际代码需要将组作为一个整体使用，因此需要groupby/apply。x2] for x2 in x1] for x1 in data1]%timeit result2 = data2.groupby(lambda group: group['i4'

浏览 2提问于2017-01-05得票数 1

1回答

Linq: GroupBy与Distinct

c#、linq

我找到了两种方法；要么使用GroupBy，要么使用Distinct。我知道Distinct是为这项工作而设计的，但我必须在对象上实现IEquatable。我试过GroupBy，它工作得很好。我想知道使用Distinct和GroupBy是否有明显的性能优势。

浏览 0提问于2014-02-27得票数 17

回答已采纳

1回答

在Spark SQL中使用groupby的最佳实践是什么？

apache-spark、apache-spark-sql

我想知道列的顺序是否对查询性能有影响。在较早的时间放置具有更多不同值的列是否有帮助？我假设groupby基于某种散列/混洗算法。如果第一个groupby可以将数据分发到可以保存在一台机器上的较小子集，则后面的groupby可以在本地完成。这是真的吗？ groupby的最佳实践是什么？

浏览 8提问于2019-03-10得票数 0

1回答

按产量分类大熊猫组

python、pandas、sorting、group-by

37 1990sarah 95 2020我希望groupbyname和计算平均performance，同时只按性能显示前两个结果的降序。我目前正在执行df.groupby(['name']).mean()，但这将计算performance和year的平均值，同时按字母顺序显示所有3个名称(我只想按性能avg按降序显示前2)。

浏览 5提问于2022-11-28得票数 0

回答已采纳

2回答

Power中的Groupby Python Pandas函数只显示值

python、powerbi

我试着用"Group“按钮的Power编辑器来完成这个任务，但是性能大约需要15-20分钟。然后，为了提高性能，我尝试了Pandas groupby函数，但是结果只是显示值。我的脚本是：data = data.groupby(['date', 'client ', 'product'] ).sum()`date` `client` `product` `Client-2 PC 8 8500 07-05-2022 Client-2 PC

浏览 1提问于2022-05-07得票数 0

1回答

为什么大熊猫成群的速度不同？

performance、pandas、group-by

为什么在pandas中，从32m行数据帧中获取组的这三种方法的性能存在差异。df = df.groupby(["a", "b", "c"]).groups df = df.index df =df.groupby(["a", "b", "c"]).count()

浏览 0提问于2016-07-18得票数 0

1回答

在实体框架的通用存储库中为get方法创建组by参数

linq、generics、entity-framework-6、iqueryable、func

它有一个orderBy，但没有groupBy。我想知道如何以与groupBy相同的方式实现orderBy，以便您可以在实体上动态地指定要分组的字段。我想出的是：然后在方法代码中应该使用如下所示：{} 但是这不是编译，因为

浏览 3提问于2022-09-29得票数 0

回答已采纳

2回答

按属性性能划分的Linq组

c#、performance、linq、database-performance

在这个帖子启发的参数化查询上，我获得了一个很好的参数化查询，但是性能上有一个缺点。dataset select item).GroupByexpense select item).GroupBy您知道如何改进第一个语法以提高性

浏览 2提问于2016-04-04得票数 4

回答已采纳

1回答

增强pandas groupby的性能&应用

pandas、pandas-groupby、pandas-apply

这几天我一直被groupby和apply加速的问题困扰着，下面是代码：我想要一个运行时更少的更新代码，如果这个问题有解决方案，我将非常感激。

浏览 0提问于2021-05-24得票数 0

2回答

IEnumerable<T>上get unique elements/group by操作的性能

c#、performance、ienumerable

我想知道如何提高以下代码的性能：{}

浏览 1提问于2010-04-27得票数 0

回答已采纳

1回答

Oracle -性能问题。使用groupby查询

performance、oracle、group-by

这是我正在使用的查询：FROM v_emp e WHERE e.emp_id IN (SELECT a.id WHERE a.code1 <> 'R' AND a.date1 IS NULL

浏览 4提问于2012-06-29得票数 0

1回答

我想测量星火的数据聚集性能。计数还是收集行动？

apache-spark、spark-dataframe、pyspark-sql

我想要创建星火上数据的性能结果统计。我在groupBy之后调用count()动作，并测量它所花费的时间。df.groupBy('Student').sum('Marks').count() 但是，我发现，如果使用collect()而不是count()，则结果要花费10倍多的时间。为什么？

浏览 2提问于2017-04-14得票数 0

回答已采纳

1回答

提高wide GroupBy* + write的性能*

performance、pyspark、azure-databricks

alias(m) for m in measures] aggregate = (spark.table("input_table") .groupBy

浏览 1提问于2022-07-23得票数 0

1回答

Spark/Scala的groupBy函数与DataFrame的任何工作差异

apache-spark、dataframe、spark-dataframe、rdd

我有点好奇地想知道RDD和DataFrame的groupBy函数。有没有什么性能上的差异或者别的什么？请提个建议。

浏览 0提问于2018-04-23得票数 0

点击加载更多

改进groupby()性能

Dask groupby date性能

删除groupby并优化pandas代码

具有最大聚合性能的Pandas groupby函数速度较慢。groupby性能改进

Scala星星之火:所有行的所有列之和

我们是在dataframe上使用groupBy还是使用reduceBy

pandas groupby/apply性能缓慢

Linq: GroupBy与Distinct

在Spark SQL中使用groupby的最佳实践是什么？

按产量分类大熊猫组

Power中的Groupby Python Pandas函数只显示值

为什么大熊猫成群的速度不同？

在实体框架的通用存储库中为get方法创建组by参数

按属性性能划分的Linq组

增强pandas groupby的性能&应用

IEnumerable<T>上get unique elements/group by操作的性能

Oracle -性能问题。使用groupby查询

我想测量星火的数据聚集性能。计数还是收集行动？

提高wide GroupBy* + write的性能*

Spark/Scala的groupBy函数与DataFrame的任何工作差异

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐