腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何
提高
pandas
GroupBy
filter
操作
的
性能
?
、
、
、
我正在将摘录加载到运行在Jupyter Notebook中
的
Pandas
dataframes中,以基于数据集推导出一个算法。我根据MAC地址对数据进行分组,这导致了1+百万组。我
的
算法开发
的
核心是运行这个
操作
:
pandas
.core.
groupby
.DataFrameGroupBy.
filter
根据数据集
的
不同,运行此
操作
需要3到5分钟。为了开发这个算法,我必须执行这个
操作
数百次,甚至数千次。
浏览 22
提问于2019-02-10
得票数 6
回答已采纳
1
回答
从列到空框架中
的
产品
、
、
frame_1为空,并且包含与frame_2中
的
Sample列关联
的
唯一Sample列。我想用基于Sample列从frame_2计算出
的
产品填充frame_1,然后生成一个Max_prod列。这些框架如下所示: 计算产品前
的
frame_1 ID Sample prod_1 prod_2 prod_3 Max_prod10 1 120000 20000 30000 120000 1 2 30000
浏览 16
提问于2020-12-23
得票数 0
回答已采纳
3
回答
为什么熊猫
的
get_group速度这么慢?
、
我有一个400.000行15列
的
csv文件。我必须对每一行进行多次过滤
操作
。因此,我想使用
pandas
和
groupby
来尝试
提高
性能
。使用
groupby
很快,但get_group似乎很慢。import
pandas
as pd df = pd.read_csv(filepath, sep=',', na_values=['', '-
浏览 1
提问于2014-08-14
得票数 3
1
回答
Dask
groupby
apply运行速度和
Pandas
一样慢
、
、
我希望通过在6核macbook pro上使用Dask dataframe而不是
Pandas
来
提高
性能
。然而,Dask
的
执行速度与
Pandas
数据帧一样慢,大约需要5分钟。ddf = ddf.set_index(ddf.index, sorted = True) paired = ddf.
浏览 1
提问于2019-07-12
得票数 0
2
回答
pandas
in加速滚动总和计算
、
、
、
、
我想要计算大量组
的
滚动总和,但我在快速计算时遇到了问题。
Pandas
具有用于滚动和扩展计算
的
内置方法 下面是一个例子: import
pandas
as pdobs_per_g = 20obs =(level=0).expanding().sum() df.
groupby
(level=0).rolling(window=5).sum() 但对于数量非常多
的
组来说,这需要很长
的
时间。对于扩展sums,使用<em
浏览 57
提问于2019-07-04
得票数 3
回答已采纳
2
回答
Power中
的
Groupby
Python
Pandas
函数只显示值
、
我有大约1000万行数据,并试图按Power中
的
数据按几个列分组。我试着用"Group“按钮
的
Power编辑器来完成这个任务,但是
性能
大约需要15-20分钟。然后,为了
提高
性能
,我尝试了
Pandas
groupby
函数,但是结果只是显示值。我
的
脚本是:data = data.
groupby
(['date', 'client ', 'product'] ).sum()
浏览 1
提问于2022-05-07
得票数 0
1
回答
熊猫群按
性能
/组合2个功能
、
、
、
、
我正在学习python,并试图了解数据查询
的
最佳实践。下面是一些要测试
的
虚拟数据(客户销售) 我想调查两种查询:
如何
在不手动编写循环
的</
浏览 1
提问于2022-03-04
得票数 1
回答已采纳
1
回答
从熊猫数据中获取每个客户
的
最新数据
、
、
我正试图获取每个客户
的
最新数据,而不管数据文件中
的
其他属性
如何
。我
的
数据看起来像这样我
的
输出应该如下所示我试过了'df.iloc[df.
groupby
('customer')'date'.idxmax()]‘,但我得到了ValueError。"ValueError跟踪(最近一次调用)在->1df=df.iloc[df.
groupby
(‘cutomer’)‘date’..idxmax
浏览 0
提问于2020-11-17
得票数 0
回答已采纳
1
回答
潘达斯块经理是
如何
提高
性能
的
?
、
、
、
Pandas
文档指出: BlockManager
的
主要好处是
提高
了某些
操作
的
性能
(从2D数组构造、二进制
操作
、跨列减少),特别是对于wide DataFrames。我以为我理解了BlockManager是
如何
通过一篇伟大
的
文章()来
提高
性能
的
,但是我意识到这个例子中有一个小错误。如果我纠正了示例中
的
错误: a1 = np.arange(128 * 1024 * 1
浏览 7
提问于2022-06-21
得票数 1
回答已采纳
1
回答
提高
搜索熊猫df
的
性能
,计数按唯一标识符分组
的
启动字符串出现
的
次数
、
、
、
目前
的
数据格式如下:idx uniqueID String to
filter
out for the first time a问题:
如何
获得“启动字符串”
的</e
浏览 4
提问于2022-09-16
得票数 1
回答已采纳
1
回答
nunique
的
Dask Grouby
性能
太慢。
如何
提高
性能
?
、
我有超过5 5GB
的
大文件。我已经将它们存储在镶木地板格式中。当我对小样本600k+记录进行如下代码所示
的
groupby
操作
时,Dask需要6分钟以上,而
pandas
只需要0.4秒。虽然我知道如果数据集可以放在内存中,
pandas
会更快,但我
的
问题是,如果我将整个拼图文件传递给Dask dataframe,
性能
会
提高
吗?也建议我
如何
改进下面的代码,这样我可以在几秒钟内运行,而不是在几分钟内。201908.parque
浏览 21
提问于2019-09-19
得票数 0
1
回答
Groupby
不同数据类型
的
多个列并聚合到列表
、
4.0SAM 1.2 2.1 b False True 6.0 df
的
相应数据类型booldtype: object 我执行了以下
操作
,并遇到了一个异常,其中
的
聚合
操作
如下所示。我得到了如下异常 df2 = df.
groupby
(['Name','num1','num2'],
浏览 13
提问于2020-01-11
得票数 2
1
回答
如何
在Python中将dataframe、
groupby
和导出数据作为一个excel文件
的
多张表
、
、
、
这里
的
Python新手import
pandas
as pd data = {'Gender':['M','M','M','M','F','Revenue_YR列而
GroupBy
series和PDP_code列,并将所有聚合数据(NE、SW、SE和NC)导出为一个xlsx文件<code>H 222</code><
浏览 3
提问于2022-01-01
得票数 0
回答已采纳
1
回答
如何
在Dask中使用sort_index、
groupby
和应用函数?
、
、
、
我有一个应用于熊猫数据文件
的
功能,我正在考虑使用dask来
提高
性能
。这是我现有的代码: level=0, ) from multiprocessing import cpu_count df
浏览 1
提问于2018-12-13
得票数 1
回答已采纳
1
回答
组,然后过滤具有条件
的
组。
、
列首先使用批处理分组,然后在结果列上有条件
的
筛选组。码 print('\n****',key,'****', '\n\n', value['Result, dtype: bool 18866 False也试过 .<em
浏览 3
提问于2021-03-15
得票数 1
回答已采纳
1
回答
如果子索引具有符合条件
的
列值,则从MultiIndex数据中删除索引
、
、
、
我会在这里尽力澄清我
的
问题,以及我
如何
相信它是独特
的
。以下是我目前
的
解决方案,我相信它
的
性能
可以
提高
: output = pd.concat([grouped.get_group(key).
groupby
(level=1).
filter
(lambda x: (x.loc[pd.IndexSlice[:, :, '1'], 'V
浏览 0
提问于2018-09-20
得票数 1
回答已采纳
2
回答
提高
pandas
中Datetime
操作
性能
、
、
我有一个大数据集,我需要日期
操作
,由于它花费
的
时间太长,我想知道是否有任何其他方法来
提高
速度。数据帧如下所示:2017-01-01, 02017-01-01, 2Date, Month, newDate2017-01-01, 1, 2017-02-01我当前
的
方法是使用=
浏览 7
提问于2017-07-26
得票数 1
回答已采纳
1
回答
如何
过滤
Pandas
对象并获取
GroupBy
对象?
、
当对
Pandas
操作
的
结果执行筛选时,它返回一个数据。但是如果我想要做更多
的
组计算,我必须再次调用
groupby
,这似乎有点接近。有没有一种更地道
的
方法来做到这一点?')})>>> type(grouped) <class '
pandas
.core.
groupby
.DataFrameGrou
浏览 7
提问于2016-03-06
得票数 13
1
回答
提高
性能
(矢量化?)
pandas
.
groupby
.aggregate
、
、
、
我试图使用自定义聚合函数来
提高
pandas
.
groupby
.aggregate
操作
的
性能
。我注意到--如果我错了--
pandas
按顺序调用每个块上
的
聚合函数(我怀疑它是一个简单
的
for-loop)。由于
pandas
在很大程度上是基于numpy
的
,是否有一种方法可以使用numpy
的
矢量化特性来加速计算?在我
的
代码中,我需要将风数据平均
浏览 1
提问于2020-12-01
得票数 5
回答已采纳
1
回答
通过变换实现熊猫群并行化/加速
的
有效方法
、
、
、
、
我试图加速一些用来计算熊猫时间延迟、索引数据格式
的
代码。dataframe包含由ID列标识
的
200 k时态序列。我试过达斯克,但没有得到任何改善(比熊猫本身花费
的
时间更长)。下面是一个可以生成具有可比较大小
的
虚拟数据
的
示例:import numpy as npnp.random.seed(1) ID_data = pd.Series(np.arange(0,20000
浏览 2
提问于2021-08-03
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Pandas 2.0 vs Polars:速度的全面对比
如何提高云计算的性能
盘点一个工作中Python自动化处理实战问题(中篇)
你可能不知道的10个Python Pandas的技巧和特性(下)
想Get晋升“数据分析”大神之路吗?
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券