腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
0
回答
pandas
groupby
sum
需要
很长
时间
,
我
该
如何
优化
呢
?
python
、
pandas
我
有大约两百万行的数据帧。如果
我
这样做
groupby
这只
需要
很短的
时间
。但如果
我
这么做了: df = df.
groupby
(by=['country','os','device'], as_index=Fa
浏览 0
提问于2017-06-08
得票数 1
回答已采纳
5
回答
熊猫:数数
python
、
pandas
对于每个车站,
我
想知道有多少次男性旅行。以下是这项工作,但
需要
很长
时间
:
我
该
怎么做
呢
因此有两种主要的方法:
groupby
()和size(),以及简单的.value_counts()。
我
做了一个快速的timeit,
g
浏览 2
提问于2012-10-12
得票数 32
回答已采纳
2
回答
pandas
in加速滚动总和计算
python
、
pandas
、
performance
、
pandas-groupby
、
rolling-computation
我
想要计算大量组的滚动总和,但我在快速计算时遇到了问题。
Pandas
具有用于滚动和扩展计算的内置方法 下面是一个例子: import
pandas
as pdobs_per_g = 20obs =df.
groupby
(level=0).expanding().
sum
() df.
groupby
(level=0).rolling(window=5).
sum
() 但对于数量非常多的组来说,这
需要
<
浏览 57
提问于2019-07-04
得票数 3
回答已采纳
2
回答
Python
Pandas
groupby
删除列
python
、
pandas
["time_of_day"] = "default value" #Formed a new column named time of the day for timestamps 因此,
我
在项目开始时创建了这些列,用于绘图和我编辑的数据分组,并使用某些值填充这些列,
我
想在data_c上执行manipulaton.After操作。avg_d = data_c.
groupby
(by = 'distance').
sum
().reset_index() 虽然
浏览 22
提问于2019-03-20
得票数 0
回答已采纳
7
回答
将多个函数应用于多个
groupby
列
python
、
group-by
、
aggregate-functions
、
pandas
展示了
如何
使用带有输出列名作为键的dict对
groupby
对象一次应用多个函数: .....:当dict类似地被DataFrame传递给一个
groupby
时,它期望键是应用该函数的列名。
我
想要做的是对几个列应用多个函数(但是某些列将被多次操作)。但这
需要
很长
时间
(
我
认为遍历
groupb
浏览 12
提问于2013-01-25
得票数 367
回答已采纳
1
回答
MS SQL计算子组占分组总数的%
sql
、
sql-server
我
有一个具有以下字段的
时间
序列表:
我
希望将每台机器在不同状态下花费的....在python(
Pandas
)中,
我
只
需要
做:(df=pandasDataframe) df_utili
浏览 2
提问于2020-04-14
得票数 0
回答已采纳
1
回答
通过排除最后一行来
优化
groupby
pandas
、
pandas-groupby
我
正在尝试将
groupby
-> mean应用于n-1行,然后将平均值分配给
pandas
中的第n行。下面是以下代码和所需的输出。它
需要
很长
时间
来运行,
我
想知道有谁知道
如何
优化
它。import
pandas
as pd df = pd.DataFrame({'id': ['A', 'A', 'A'
浏览 16
提问于2019-04-12
得票数 0
回答已采纳
2
回答
避免申请熊猫群做多功能操作
python
、
pandas
我
正在尝试将多个函数应用到熊猫的不同栏中。
我
的数据由10多万行和100多个组组成。
我
正在尝试类似于中的类似操作(例如下面的例子),但这
需要
很长
时间
。
我
试过使用,但这也没有帮助。对于
如何
改进下面的示例,有什么建议吗?import
pandas
as pddf = pd.DataFrame(np.random.rand(4,4), columns=list('abcd')) df
浏览 1
提问于2020-10-07
得票数 1
回答已采纳
1
回答
查询中的连接函数使查询运行速度变慢
php
、
mysql
、
sql
、
laravel-5
这是
我
尝试过的查询 ->join(DB::raw("(select distinct s_id, c_cod'=', 'b.compid')->on('a.c_cod', '=', 'b.c_cod'); ->select('b.s_id', DB::raw('<
浏览 1
提问于2018-12-20
得票数 3
1
回答
熊猫中的.loc速度很慢
python
、
pandas
我
有一个DataFrame,它有多个数字列(varnames)和一个标记列(groups[0]),用于标识所有不同的观察组。
我
想取每组的平均值,并从相应的观察值中减去它:df.loc[:,varnames] -= mean.loc[df[groups[0]]].values
我
的代码可以工作,但
需要
很长
时间
。
我</e
浏览 0
提问于2016-02-12
得票数 4
1
回答
动态构建用于导出到csv的大型数据帧(spark或
pandas
)的方法
python
、
pandas
、
apache-spark
、
pyspark
、
databricks
我
正在尝试构建这个源文件的汇总表,它在一个月级别(聚合)表示这些记录/事务。
该
脚本有一个filter/
groupby
/
sum
命令,
该
命令返回一行,将数据汇总为一个月的计数。
我
在使用此脚本的输出(显示或csv导出)时遇到了问题。在pyspark和
pandas
中
我
都遇到了问题。
我
不确定
如何
堆叠查询的结果,以及它应该是什么形式?#
Pandas
如果
我
在<em
浏览 12
提问于2020-07-12
得票数 0
1
回答
改进
Pandas
在火花放电中的应用
windows
、
performance
、
apache-spark
、
pyspark
、
user-defined-functions
我
可以很容易地通过构造一个
Pandas
来实现这一结果,它将
Pandas
中的某些列作为输入,将它们转换为
Pandas
DataFrame,然后计算聚合并返回标量结果。然后将UDF应用于所需的滑动窗口。尽管此解决方案工作良好,但完成任务
需要
很长
时间
(3-4小时),因为DFs包含数百万行。是否有办法改善这种运算的计算
时间
?
我
正在数据库中使用Pyspark。
我
的熊猫UDF是: @
pandas
_udf(Flo
浏览 5
提问于2021-04-11
得票数 2
2
回答
我
如何
在
pandas
中计算
groupby
的绝对和?
python
、
pandas
、
dataframe
、
pandas-groupby
我
如何
在
pandas
中计算
groupby
的绝对和?
我
可以使用以下代码来计算总和:import numpy as np print('total_scores: {0}
浏览 11
提问于2017-07-31
得票数 10
回答已采纳
2
回答
pandas
dataframe
groupby
:仅正数的
sum
/count
python
、
pandas
我
有一个数据帧('frame'),
我
想按国家/地区和日期进行聚合: aggre
浏览 0
提问于2013-12-07
得票数 3
回答已采纳
4
回答
Python
Pandas
:将日期
时间
列分组为小时和分钟聚合
python
、
date
、
pandas
这看起来似乎相当简单,但几乎一整天之后,
我
还没有找到解决方案。
我
已经用read_csv加载了
我
的数据帧,并轻松地将日期和
时间
列解析、组合和索引到一列中,但现在
我
希望能够像在excel pivot中所做的那样,仅基于小时和分钟分组来重塑和执行计算。
我
知道
如何
重采样到小时或分钟,但它保留了与每个小时/分钟相关联的日期部分,而我只想将数据集聚合到小时和分钟,类似于在excel数据透视表中分组并选择“小时”和“分钟”,而不选择其他任何内容。
浏览 2
提问于2013-04-29
得票数 72
2
回答
筛选到整个组的
Pandas
小计
python
、
pandas
、
dataframe
、
filter
、
group-by
给定以下数据帧:import numpy as npsize=20对于每个组,
我
需要
一个列
我
使用以下命令执行此操作: df[&quo
浏览 12
提问于2020-03-13
得票数 0
回答已采纳
5
回答
熊猫:最快的方式,最大限度地分组和总结小组。
python
、
pandas
、
group-by
、
pandas-groupby
、
aggregate
14 B C D
sum
x z 3 12 33
我
有下面的代码。import
pandas
as pd 'B': ['z','z'
浏览 5
提问于2020-11-06
得票数 2
回答已采纳
2
回答
pyspark中的
优化
pyspark
、
aggregate
我
正在用pyspark写代码,在那里
我
正在做过滤,连接,联合,分组操作。但我注意到,在
groupby
操作之前,count()函数
需要
9分钟,而在
groupby
操作之后,count()函数
需要
35分钟。
我
需要
一些关于
如何
优化
groupby
子句以减少处理
时间
的建议。dataframeE = dataframeD.join(dataframeC, col1 == col2, '
浏览 3
提问于2016-11-28
得票数 0
3
回答
素数和- for循环和大数
python
、
for-loop
、
optimization
、
primes
我
运行以下代码来查找前10,000,000个质数的和。
我
如何
对它进行
优化
,使其不
需要
花费
很长
时间
来获得结果(质数的和)?
sum
=0iterator=0 prime = True prime = False
sum<
浏览 1
提问于2018-03-01
得票数 1
1
回答
groupby
.
sum
()稀疏矩阵在熊猫或枕木中的应用:寻找性能
performance
、
numpy
、
pandas
、
scipy
、
sparse-matrix
']
我
的问题是
groupby
.
sum
()非常长,太长了(超过30分钟)。所以我
需要
一个不同的策略来计算。这是第二次尝试。在这里,
我
有两个选择:要么找到一种有效地在这个稀疏的枕叶矩阵上实现
groupby
.
sum
()的方法,要么将它转换为一个实际的.toarray() numpy矩阵,如下所示:df2 = <em
浏览 2
提问于2015-05-18
得票数 4
回答已采纳
点击加载更多
相关
资讯
Python数据分析学习笔记002
这些问题,你在处理数据时肯定遇到过
Pandas时间序列数据聚合全攻略:实战与代码解析
在Pandas中通过时间频率来汇总数据的三种常用方法
Pandas与SQL的数据操作语句对照
热门
标签
更多标签
云服务器
ICP备案
即时通信 IM
云点播
实时音视频
活动推荐
运营活动
广告
关闭
领券