pandas groupby sum需要很长时间，我该如何优化呢？

文章/答案/技术大牛

发布

0回答

python、pandas

我有大约两百万行的数据帧。如果我这样做groupby这只需要很短的时间。但如果我这么做了： df = df.groupby(by=['country','os','device'], as_index=Fa

浏览 0提问于2017-06-08得票数 1

回答已采纳

5回答

熊猫:数数

python、pandas

对于每个车站，我想知道有多少次男性旅行。以下是这项工作，但需要很长时间：我该怎么做呢因此有两种主要的方法：groupby()和size()，以及简单的.value_counts()。我做了一个快速的timeit，g

浏览 2提问于2012-10-12得票数 32

回答已采纳

2回答

pandas in加速滚动总和计算

python、pandas、performance、pandas-groupby、rolling-computation

我想要计算大量组的滚动总和，但我在快速计算时遇到了问题。Pandas具有用于滚动和扩展计算的内置方法下面是一个例子： import pandas as pdobs_per_g = 20obs =df.groupby(level=0).expanding().sum() df.groupby(level=0).rolling(window=5).sum() 但对于数量非常多的组来说，这需要<

浏览 57提问于2019-07-04得票数 3

回答已采纳

2回答

Python Pandas* groupby删除列*

python、pandas

["time_of_day"] = "default value" #Formed a new column named time of the day for timestamps 因此，我在项目开始时创建了这些列，用于绘图和我编辑的数据分组，并使用某些值填充这些列，我想在data_c上执行manipulaton.After操作。avg_d = data_c.groupby(by = 'distance').sum().reset_index() 虽然

浏览 22提问于2019-03-20得票数 0

回答已采纳

7回答

将多个函数应用于多个groupby列

python、group-by、aggregate-functions、pandas

展示了如何使用带有输出列名作为键的dict对groupby对象一次应用多个函数： .....:当dict类似地被DataFrame传递给一个groupby时，它期望键是应用该函数的列名。我想要做的是对几个列应用多个函数(但是某些列将被多次操作)。但这需要很长时间(我认为遍历groupb

浏览 12提问于2013-01-25得票数 367

回答已采纳

1回答

MS SQL计算子组占分组总数的%

sql、sql-server

我有一个具有以下字段的时间序列表：我希望将每台机器在不同状态下花费的....在python(Pandas)中，我只需要做：(df=pandasDataframe) df_utili

浏览 2提问于2020-04-14得票数 0

回答已采纳

1回答

通过排除最后一行来优化groupby

pandas、pandas-groupby

我正在尝试将groupby -> mean应用于n-1行，然后将平均值分配给pandas中的第n行。下面是以下代码和所需的输出。它需要很长时间来运行，我想知道有谁知道如何优化它。import pandas as pd df = pd.DataFrame({'id': ['A', 'A', 'A'

浏览 16提问于2019-04-12得票数 0

回答已采纳

2回答

避免申请熊猫群做多功能操作

python、pandas

我正在尝试将多个函数应用到熊猫的不同栏中。我的数据由10多万行和100多个组组成。我正在尝试类似于中的类似操作(例如下面的例子)，但这需要很长时间。我试过使用，但这也没有帮助。对于如何改进下面的示例，有什么建议吗？import pandas as pddf = pd.DataFrame(np.random.rand(4,4), columns=list('abcd')) df

浏览 1提问于2020-10-07得票数 1

回答已采纳

1回答

查询中的连接函数使查询运行速度变慢

php、mysql、sql、laravel-5

这是我尝试过的查询 ->join(DB::raw("(select distinct s_id, c_cod'=', 'b.compid')->on('a.c_cod', '=', 'b.c_cod'); ->select('b.s_id', DB::raw('<

浏览 1提问于2018-12-20得票数 3

1回答

熊猫中的.loc速度很慢

python、pandas

我有一个DataFrame，它有多个数字列(varnames)和一个标记列(groups[0])，用于标识所有不同的观察组。我想取每组的平均值，并从相应的观察值中减去它：df.loc[:,varnames] -= mean.loc[df[groups[0]]].values 我的代码可以工作，但需要很长时间。我</e

浏览 0提问于2016-02-12得票数 4

1回答

动态构建用于导出到csv的大型数据帧(spark或pandas)的方法

python、pandas、apache-spark、pyspark、databricks

我正在尝试构建这个源文件的汇总表，它在一个月级别(聚合)表示这些记录/事务。该脚本有一个filter/groupby/sum命令，该命令返回一行，将数据汇总为一个月的计数。我在使用此脚本的输出(显示或csv导出)时遇到了问题。在pyspark和pandas中我都遇到了问题。我不确定如何堆叠查询的结果，以及它应该是什么形式？#Pandas如果我在<em

浏览 12提问于2020-07-12得票数 0

1回答

改进Pandas在火花放电中的应用

windows、performance、apache-spark、pyspark、user-defined-functions

我可以很容易地通过构造一个Pandas来实现这一结果，它将Pandas中的某些列作为输入，将它们转换为Pandas DataFrame，然后计算聚合并返回标量结果。然后将UDF应用于所需的滑动窗口。尽管此解决方案工作良好，但完成任务需要很长时间(3-4小时)，因为DFs包含数百万行。是否有办法改善这种运算的计算时间？我正在数据库中使用Pyspark。我的熊猫UDF是： @pandas_udf(Flo

浏览 5提问于2021-04-11得票数 2

2回答

我如何在pandas中计算groupby的绝对和？

python、pandas、dataframe、pandas-groupby

我如何在pandas中计算groupby的绝对和？我可以使用以下代码来计算总和：import numpy as np print('total_scores: {0}

浏览 11提问于2017-07-31得票数 10

回答已采纳

2回答

pandas dataframe groupby:仅正数的sum/count

python、pandas

我有一个数据帧('frame')，我想按国家/地区和日期进行聚合： aggre

浏览 0提问于2013-12-07得票数 3

回答已采纳

4回答

Python Pandas:将日期时间列分组为小时和分钟聚合

python、date、pandas

这看起来似乎相当简单，但几乎一整天之后，我还没有找到解决方案。我已经用read_csv加载了我的数据帧，并轻松地将日期和时间列解析、组合和索引到一列中，但现在我希望能够像在excel pivot中所做的那样，仅基于小时和分钟分组来重塑和执行计算。我知道如何重采样到小时或分钟，但它保留了与每个小时/分钟相关联的日期部分，而我只想将数据集聚合到小时和分钟，类似于在excel数据透视表中分组并选择“小时”和“分钟”，而不选择其他任何内容。

浏览 2提问于2013-04-29得票数 72

2回答

筛选到整个组的Pandas小计

python、pandas、dataframe、filter、group-by

给定以下数据帧：import numpy as npsize=20对于每个组，我需要一个列我使用以下命令执行此操作： df[&quo

浏览 12提问于2020-03-13得票数 0

回答已采纳

5回答

熊猫:最快的方式，最大限度地分组和总结小组。

python、pandas、group-by、pandas-groupby、aggregate

14 B C D sumx z 3 12 33我有下面的代码。import pandas as pd 'B': ['z','z'

浏览 5提问于2020-11-06得票数 2

回答已采纳

2回答

pyspark中的优化

pyspark、aggregate

我正在用pyspark写代码，在那里我正在做过滤，连接，联合，分组操作。但我注意到，在groupby操作之前，count()函数需要9分钟，而在groupby操作之后，count()函数需要35分钟。我需要一些关于如何优化groupby子句以减少处理时间的建议。dataframeE = dataframeD.join(dataframeC, col1 == col2, '

浏览 3提问于2016-11-28得票数 0

3回答

素数和- for循环和大数

python、for-loop、optimization、primes

我运行以下代码来查找前10,000,000个质数的和。我如何对它进行优化，使其不需要花费很长时间来获得结果(质数的和)？sum=0iterator=0 prime = True prime = False sum<

浏览 1提问于2018-03-01得票数 1

1回答

groupby.sum()稀疏矩阵在熊猫或枕木中的应用:寻找性能

performance、numpy、pandas、scipy、sparse-matrix

']我的问题是groupby.sum()非常长，太长了(超过30分钟)。所以我需要一个不同的策略来计算。这是第二次尝试。在这里，我有两个选择:要么找到一种有效地在这个稀疏的枕叶矩阵上实现groupby.sum()的方法，要么将它转换为一个实际的.toarray() numpy矩阵，如下所示：df2 = <em

浏览 2提问于2015-05-18得票数 4

回答已采纳

点击加载更多