文章/答案/技术大牛

发布

pandas在运行的groupby()对象上应用()的次数比运行组的次数多得多

在使用 pandas 进行数据处理时，groupby() 方法是一个非常强大的工具，它允许用户根据一个或多个键对数据进行分组。然而，如果在 groupby() 对象上应用的函数调用次数比实际分组的数量多，这通常意味着在处理每个分组时，可能存在一些额外的操作或者逻辑错误。

基础概念

groupby() 方法会根据指定的列或列的组合将数据分组，返回一个 GroupBy 对象。这个对象可以看作是一个字典，其中键是分组的键值，值是对应的子数据框。

可能的原因

多次迭代：可能在循环中对 GroupBy 对象进行了多次迭代，每次迭代都会重新计算分组。
嵌套函数调用：在处理每个分组时，可能调用了多个函数，这些函数内部可能又进行了额外的分组或迭代。
复杂的聚合逻辑：如果使用了复杂的聚合函数，这些函数可能在内部进行了多次计算。

解决方法

优化代码逻辑：检查代码中是否有不必要的多次迭代或重复的分组操作。
使用高效的聚合函数：尽量使用内置的高效聚合函数，如 sum(), mean(), max(), min() 等。
避免嵌套循环：尽量减少在分组操作中使用嵌套循环。
使用 transform() 方法：如果需要对每个分组进行相同的转换操作，可以使用 transform() 方法，它会返回一个与原始数据框大小相同的数据框。

示例代码

假设我们有一个数据框 df，并且我们想要计算每个分组的平均值，但是发现调用的次数过多。

import pandas as pd

# 假设 df 是我们的数据框
df = pd.DataFrame({
    'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
    'B': [1, 2, 3, 4, 5, 6, 7, 8],
    'C': [10, 20, 30, 40, 50, 60, 70, 80]
})

# 错误的示例：多次迭代
grouped = df.groupby('A')
for name, group in grouped:
    print(name)
    print(group['B'].mean())
    print(group['C'].mean())

# 正确的示例：使用一次聚合
result = grouped['B', 'C'].mean()
print(result)

在这个例子中，错误的示例可能会导致多次计算每个分组的平均值，而正确的示例则通过一次聚合操作得到了所有需要的结果。

应用场景

数据分析：在对数据进行分组后，通常需要对每个分组进行统计分析，如求和、平均、最大值、最小值等。
数据清洗：在数据清洗过程中，可能需要根据某些条件对数据进行分组，并对每个分组应用特定的转换或过滤操作。
机器学习预处理：在构建机器学习模型之前，可能需要对数据进行分组，并对每个分组进行特征工程。

通过理解 groupby() 的工作原理和优化代码逻辑，可以有效减少不必要的计算，提高数据处理的效率。

pandas在运行的groupby()对象上应用()的次数比运行组的次数多得多

、

我继承了一些正在尝试优化的pandas代码。for循环下移到一个单独的函数get_results_for_plan中，并使用pandas groupby()和apply()方法。正在运行 %lprun -f get_results_for_plan my_df.groupby('plan_name', sort=False, as_index=False).apply(get_results_for_plandescribe_change['

浏览 6提问于2019-03-12得票数 3

2回答

计算pandas数据帧中每单位时间的出现率

、、

我正在计算数据帧中事件发生的速率。我在熊猫中有一个数据框架，可以跟踪某个事件的开始和持续时间。channels表示我要循环遍历的一组唯一的组。time frame) 'A3': 0.1 } 我到目前为止的尝试首先，我获得了一个基于channels的组 foridx, group in df.<

浏览 22提问于2021-02-11得票数 3

回答已采纳

5回答

适用于jQuery 1.3.2的Visual jQuery

网站，最初由Yehuda Katz创建，由Remy Sharp更新，对探索jQuery应用编程接口非常有帮助和交互性。我使用这个网站的次数比使用的次数多得多 我仍然在等待有人更新网站，因为它仍然展示了jQuery 1.2.6。有没有人知道在jQuery 1.3.2或jQuery UI上有类似的网站？

浏览 0提问于2009-11-02得票数 7

回答已采纳

1回答

指令中的函数运行的次数比预期的多得多

、

我正在尝试使用此中的提示动态设置指令的模板 } }}); 我在一个运行2次的ng-repeat指令中使用这个指令(test.fields的长度为2)。ng-repeat="field in test

浏览 0提问于2015-11-02得票数 0

2回答

Groupby不会返回以前的df，而不会更改它

/input/tipping/tips.csv')df_1.head() 伙计们，我错过了什么？因为它返回给我之前没有groupby的数据帧

浏览 21提问于2021-11-10得票数 1

回答已采纳

3回答

为什么viewDidUnload的调用频率比viewDidLoad低？

、

我在视图控制器的viewDidLoad和viewDidUnload中都放入了NSLog(@"%@::%@", [[self class] description], NSStringFromSelector在日志中，我发现当应用程序在不同的.nibs之间来回移动时，viewDidLoad被调用的次数比viewDidUnload多得多。为什么？

浏览 0提问于2010-07-26得票数 10

回答已采纳

1回答

pandas groupby count字符串出现在列上

、、、、

我想计算一个分组的pandas dataframe列中字符串的出现次数。对于这些组中的每个组，我希望在scores列中计算RET的出现次数。结果应该如下所示：A X 1B Z 2 按两列分组很容易：grouped = df.groupby

浏览 1提问于2015-07-27得票数 13

回答已采纳

1回答

谷歌脚本异常:文档[spreadsheetID]丢失(可能已被删除，或者您没有读取权限？)

、

脚本每分钟都在定时触发器上运行，因此它找到文档的次数显然比没有的多得多，因为异常可能每隔几天才发生一到两次。它也会在一天中的不同时间发生。我也得到了一个错误“异常:服务错误:电子表格”，没有进一步的信息。

浏览 0提问于2020-02-28得票数 0

5回答

Apply function to pandas groupby

、

我有一个pandas数据帧，它有一个名为my_labels的列，其中包含字符串：'A', 'B', 'C', 'D', 'E'。我想计算每个字符串出现的次数，然后将计数的数量除以所有计数的总和。我试着在Pandas中这样做：data = frame.groupby

浏览 5提问于2013-03-13得票数 53

回答已采纳

1回答

有没有办法取消DispatchQueue concurrentPerform操作？

、、

if stop { group.leave(); return } // Crashes with EXC_BAD_INSTRUCTION}) group.wait() 在几次迭代之后基本上，我尝试做的是并发地循环一个数组，并在满足某些条件时中断它，而不是使用Objective-C桥来使用并发枚举。

浏览 17提问于2019-06-05得票数 0

回答已采纳

2回答

Pandas 0.13.1和python 2.7.6中的键错误

、、

当我尝试下面的代码时，我得到的是关键错误“位置”。对于早期版本的熊猫来说，这条代码很好用。"places_count =list(data1 1‘locations’)“正在导致错误。有人知道这个错误的原因吗。data = pd.read_csv('data//datafile.csv')places = list(data1.index) places_count =

浏览 0提问于2014-08-20得票数 0

回答已采纳

1回答

如何使用xarray计算组的大小？

、、

我想统计一下使用groupby()进行分组后的组大小，即某个值出现的次数。使用pandas时，可以使用GroupBy.size()完成此操作 >>> pd.DataFrame({'my_column': [1, 1, 1, 2, 2, 3]}).groupby(by='my_column，例如将DataArray对象转换为Pandas DataFrame： >&g

浏览 20提问于2020-10-06得票数 0

回答已采纳

1回答

显示在Reporting Services 2000中传递给SP的参数

、

我的情况是这样的。我正在更改报告的SP，以便在过渡到2005年时加快速度，实际上，这与funky from的来源相同，并且由于某种原因，当我从SQL调用SP时，它需要4秒。当报告运行时，它已经运行了20分钟，而且还在运行。我非常确定我正在复制传递的参数。不过，由于时差，我可能不是。在LogiXML中，您可以启用调试链接，它们将允许您查看传递给SP等的参数。在SSRS中一定有类似的

浏览 2提问于2010-09-09得票数 0

2回答

如何配置纱上应用程序驱动程序的自动重新启动

、、

来自火花编程指南火花独立-可以提交一个火花应用程序驱动程序，以便在Spark独立集群中运行(参见集群部署模式)，也就是说，应用程序驱动程序本身运行在一个工作节点上。此外，可以指示独立集群管理器监督驱动程序，并在驱动程序由于非零退出代码或<

浏览 5提问于2015-05-15得票数 7

2回答

C++生成器版本的相对健壮性是什么？

、

我们的开发团队使用Borland C++ Builder6和CodeGear C++ Builder2007(以及Visual Studio)。我听到很多评论说Builder2007IDE崩溃的次数比BCB6多得多。有没有人有过使用C++ Builder2009IDE的经验，特别是一个相当大的应用程序，如果有的话，在总体健壮性方面与6或2007相比如何？

浏览 5提问于2008-09-23得票数 3

回答已采纳

1回答

为什么按日期分组在Pandas* dataframe中如此缓慢？*

、、、、

我试图在Pandas数据框架上执行groupby，但是对于日期类型来说它非常慢。在本例中，我认为date组的运行时运行时间比int长10倍，尽管没有对数据执行任何操作。import datetime as dtdates = [d forrange(1,1500000)] df = pd.

浏览 0提问于2019-07-31得票数 2

回答已采纳

1回答

按组列出的Groupby对象中的百分比更改

、、、

我需要一些熊猫groupby的帮助。有没有办法在pandas groupby中为每个组运行一个lambda (或等效的)？请参见下面的示例。我想在此groupby中右侧的列中添加与前一年相比的百分比变化。我尝试了几种方法，但它们似乎都忽略了从新的“项目”组开始。import pandas as pd x = p

浏览 2提问于2018-12-15得票数 2

回答已采纳

1回答

运行次数和循环次数在时间上的差异

、

我想检查在合并2个数据文件时使用数字查找值是否比使用字符串查找值更快。为此，我在下面的代码中使用了%timeit：%timeit newframe = subframe.merge(frame, on = 'a string column', howdev.7次运行中，每一次循环100次) %timeit newframe2 = subframe.merge(frame, on = 'a numeric column'

浏览 1提问于2019-10-26得票数 2

回答已采纳

1回答

需要阿瓦希守护程序吗？CPU负载安静高

、、

在使用htop进行其他一些工作时，我注意到一个名为“avahi-daemon”的程序，它使用的是我最大的CPU负载，而且肯定比所有其他程序都要多。我读到它是一种在本地网络中方便文件共享的程序，所以我的问题是，我是否可以在不需要的时候禁用它，或者对于一些我不知道的事情是必要的？它工作正常，但我想节省一些电池。谢谢!编辑:我知道15%的固定使用率并不多，但比

浏览 0提问于2018-04-16得票数 4

4回答

OnTime持续时间少于1秒，且不会变得无响应

、、、

我有一个用户表单，每100ms运行一次脚本。该脚本处理用户表单上的图像，并用于对其进行动画处理，同时表单继续接收用户输入(鼠标单击和按键)。这将一直持续到用户表单关闭。虽然Application.OnTime似乎工作得最好，但它只在1秒或更长的时间值上运行一致。当我使用像这样的东西 Application.OnTime now + (TimeValue("00:00:01") /

浏览 5提问于2014-08-04得票数 5

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

pandas在运行的groupby()对象上应用()的次数比运行组的次数多得多

基础概念

可能的原因

解决方法

示例代码

应用场景

相关·内容

pandas在运行的groupby()对象上应用()的次数比运行组的次数多得多

计算pandas数据帧中每单位时间的出现率

适用于jQuery 1.3.2的Visual jQuery

指令中的函数运行的次数比预期的多得多

Groupby不会返回以前的df，而不会更改它

为什么viewDidUnload的调用频率比viewDidLoad低？

pandas groupby count字符串出现在列上

谷歌脚本异常:文档[spreadsheetID]丢失(可能已被删除，或者您没有读取权限？)

Apply function to pandas groupby

有没有办法取消DispatchQueue concurrentPerform操作？

Pandas 0.13.1和python 2.7.6中的键错误

如何使用xarray计算组的大小？

显示在Reporting Services 2000中传递给SP的参数

如何配置纱上应用程序驱动程序的自动重新启动

C++生成器版本的相对健壮性是什么？

为什么按日期分组在Pandas* dataframe中如此缓慢？*

按组列出的Groupby对象中的百分比更改

运行次数和循环次数在时间上的差异

需要阿瓦希守护程序吗？CPU负载安静高

OnTime持续时间少于1秒，且不会变得无响应

扫码

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐