用矢量化函数替换慢Pandas循环_用矢量化替换pandas iterrow/apply_用广播/矢量化解决方案替换内部函数调用的for循环 - 腾讯云开发者社区

python、pandas、performance

我在熊猫中有一个循环，真的很慢(十多分钟)。我试着用一个矢量化的函数来代替它，但是想不出该用什么。也许这对于矢量化函数来说是不可能的，但似乎不应该是这样的。

浏览 20提问于2020-10-10得票数 1

回答已采纳

1回答

将dask dataframe转换为dataframe太慢，使用它并行处理时不会节省时间。

pandas、dask

import pandas as pd import dask.dataframe as dd import timewarnings.simplefilter=1)d_data = dd.from_pandas

浏览 0提问于2018-09-29得票数 0

回答已采纳

2回答

迭代熊猫系列/列的最快方法

python、pandas、dataframe、series

我更习惯循环，但一旦你得到大量数据，它们在熊猫中就会变慢。我一直在寻找迭代、iter.等例子，但想知道是否有更快的方法。

浏览 4提问于2021-06-30得票数 0

回答已采纳

1回答

应用比较运算符后如何输出到另一列

python-3.x、pandas、dataframe

我的dataframe中有一些交易数据。我尝试做的是基于几个条件检查一列中的值是否大于另一列中的值。之后，我想创建一个新列并输出结果(-1,1或0)。 for n in range(0,len(df)): print("1") elif df['Close'].iloc[n

浏览 16提问于2018-12-23得票数 1

回答已采纳

3回答

熊猫替换/字典慢

python、performance、pandas、dictionary

请帮助我理解为什么Python/Pandas中的“从字典替换”操作比较慢：# Dictionary has 11269 key-value将列中的值替换为O(1)。这不是一个矢量化的操作吗？即使没有矢量化，迭代200行也只是200次迭代，那么它怎么会慢呢？下面是一个SSCCE演示了这个问题：import random # Initialize d

浏览 2提问于2017-02-01得票数 17

回答已采纳

4回答

为什么回路在R中变慢？

performance、r、apply

我知道循环在R中是缓慢的，我应该尝试以矢量化的方式来做事情。“为什么矢量化更快？”

浏览 4提问于2011-08-22得票数 92

回答已采纳

2回答

在Java中没有for循环的乘法数组

java、arrays、matlab

如果我在Matlab中，我可以编写一个循环来执行这样的乘法：c(i) = a(i) * b(i);但我知道避免for循环是件好事，有一种方法可以做到，那就是*方法的完成速度始终比for循环快3倍。for (int i=0; i<a.length; i++) {} 我的问题是:是否有更好的方法来避免for循环？在我看来，在没有for

浏览 1提问于2015-10-01得票数 2

回答已采纳

1回答

如何有效地将由节点标识符组成的边列表转换为包含行和列索引的边列表？

python、adjacency-matrix

我目前的方法是提取唯一的一组排序的NodeID，将它们映射为0，范围为不同的节点数量，然后使用pandas.DataFrame.replace(mapping)替换条目。下面是我正在做的一个例子： import numpy as npmapping = dict(zip(unique_values, np.arange(len(unique_values)))) df.replace(mappin

浏览 9提问于2021-09-10得票数 3

回答已采纳

1回答

提高大熊猫群的性能

python、pandas

我有一个用Python编写的机器学习应用程序，其中包括一个数据处理步骤。当我编写它时，我最初在Pandas DataFrames上进行了数据处理，但是当这导致了糟糕的性能时，我最终用普通的Python重写了它，使用的是for循环，而不是矢量化的操作，列表和切分，而不是DataFrames令我惊讶的是，用vanilla编写的代码的性能最终远远高于使用Pandas编写的代码。由于我的手工编码的数据处理代码比原来的Pandas代码要大得多，而且更加混乱，所以

浏览 1提问于2017-11-20得票数 37

回答已采纳

1回答

对大数据帧进行赋值

performance、r、for-loop

我用以下方式创建了一个数据框：data$number = 0当我运行一个为数据框赋值的for循环(迭代行)时，我的代码运行得非常慢somethingElse <- function() {3} for (i为什么它在R中这么慢？我记得读过R逐列存储矩阵(例如，与C不同，它是逐行存储的)。

浏览 0提问于2013-05-24得票数 0

1回答

快速返回曲线内外点的bool矩阵的方法，Python

python、image、vectorization、curve

我设法通过用多边形逼近曲线并用shapely.geometry包逐点确定想要的属性来找到解决方案。): points[i,j]=Point([i,j]).within(polygon)这个函数非常慢(嵌套循环)，我希望它更快，因为这个函数被调用了多少次。为了避免嵌套循环，我尝试“矩阵矢量化”，但是我找不到一个可行的解决方案。有人能帮上忙吗？

浏览 5提问于2022-09-25得票数 1

1回答

如何让pandas循环更快:从url中抓取文本

python、pandas、performance、for-loop、web-scraping

我有一个'for‘循环，但它的运行速度非常慢。有没有更快的方法来做到这一点？我读过关于Pandas Built-In-Loop，矢量化和numpy矢量化的文章，但未能将其应用到我的代码中。

浏览 0提问于2020-04-15得票数 2

2回答

pandas_udf在两个ArrayType(StringType())字段上操作

arrays、pyspark、user-defined-functions

它非常慢。我想用pandas_udf代替它，以利用矢量化的优势。我知道没有UDF我也能达到同样的效果。这是因为我简化了这个例子，但这不是我的目标。from pyspark.sql import functions as fimport <

浏览 0提问于2019-09-05得票数 3

回答已采纳

1回答

Numpy for循环运行时间太长

arrays、numpy、runtime

唯一真正慢的模块是我对(144,208)-array中的每个矩阵元素执行的for循环。 some1是否可以告诉我是否有优化的可能性，或者我是否必须接受这将花费这么长时间的事实。谢谢

浏览 0提问于2018-12-04得票数 1

1回答

对自己的输出调用函数，N次

我想运行一个函数N次，它的输入是它在上一次迭代中产生的输出。=2,y=3)data <- fun(data)data <- fun(data) 有没有一种简单/快速的方法来做到这一点，而不使用慢循环

浏览 3提问于2021-02-11得票数 0

回答已采纳

2回答

如何在Pandas中将带有if语句的嵌套迭代转换为矢量化函数或其他更快的方法

python、python-3.x、pandas、dataframe

我知道pandas.DataFrame.iterrows非常慢，对于熊猫/蟒蛇中的简单函数，比如“每列乘另一列”，矢量化是很容易的。 df1 = pd.Data

浏览 2提问于2017-01-20得票数 2

回答已采纳

1回答

用矢量化替换pandas* iterrow/apply*

python、pandas、loops

考虑下面的示例，我遍历每一行，将它们分成两个样本，并对每一行执行统计测试： for index, row in data.iterrows(): data.loc[index, 'stat'] = stat data.loc[index, 'prob'] = p 有没有什么方法可以加快速度

浏览 15提问于2020-04-20得票数 1

2回答

python中大型数据集的高效条件验证

python、performance、validation

首先，我认为验证这些数据的最有效方法是将lambda函数应用到我的dataframe中。

浏览 5提问于2021-03-30得票数 2

回答已采纳

1回答

pandas groupby + apply的快速替代品？

python、pandas、numpy、vectorization

我有一个pandas数据帧，它看起来像下面这样(大约有100万行)： Column_1 Column_2 Column_3 Column_4 Column_5 Columnnew_column_2':func_2(x), )).reset_index() 这是可行的，但速度非常慢。函数func_1、func_2、func_3是我希望应用于每个组的自定义函数。我

浏览 46提问于2021-06-29得票数 0

3回答

检查单元格的值是否在另一个单元格的列表/集中

pandas、vectorization

England}6 Spain {Portugal, Spain, Italy}6 Spain {Portugal, Spain, Italy} True 用df.apply()做这件事很容易，但也非常慢。因此，我正在寻找一个使用Numpy或本地Pandas矢量化</em

浏览 0提问于2018-08-17得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云