循环优化的Pandas

文章/答案/技术大牛

发布

1回答

python、pandas、for-loop、dataframe、optimization

我是python的新手，虽然我可以毫无问题地编写for循环，但我发现它们慢得可怕。下面是我的代码： percent = float(percent)match_maker为两个数据帧中的每一行调用perc_match，并将输出放在df_match中其各自的

浏览 0提问于2018-07-24得票数 1

1回答

熊猫-在滚动窗口中计算大于x值的最快方法是什么？

python、pandas

给定一个熊猫系列a，对于每个值a[i]，我需要计算a[i-window:i-1]中有多少值大于a[i]import pandas a =

浏览 3提问于2016-05-22得票数 1

回答已采纳

1回答

读取单个数据中的多个csv文件

python、performance、python-3.x、csv、pandas

我在一个目录中有很多压缩的csv文件。我想把所有这些文件都放在一个数据文件里。到目前为止，这就是我所做的：for filename in os.listdir(path): df = df.append(temp) 我注意到，上面的代码一开始运行得相当快，但随着读取越来越多的文件，它的运行速度越来越慢。

浏览 0提问于2020-01-15得票数 4

回答已采纳

1回答

在python中连接Dataframe的列？

python、pandas

我使用下面的代码生成了一个数据框架：import pandas as pd df = pd.DataFrame'Cost':[10000, 5000, 15000, 2000]}) print(df) [A_Music_Theater_10000, B_Poetry_Music_5000,C_Theatre_C

浏览 3提问于2019-10-16得票数 1

回答已采纳

1回答

如何通过Pandas DataFrame优化循环

python、pandas、loops

我知道循环遍历Pandas dataframe通常是个坏主意，但在这种情况下，我不知道还能做什么。我有一个名为DataFrame的合并，格式如下，但是有2kk行长。01977 4 7912 NaN 0 我要做的是，如果是选举年，根据下面的计算来标记每一行，并将其余的观察结果保持为NaNs，并将PostElection列从0更改为1，如果下面的条件为true。下面

浏览 0提问于2020-06-11得票数 0

1回答

优化循环中的pandas切片操作

python、pandas

这是我的数据结构，Date Time是唯一的，用作包含700,000行不同日期的pandas数据帧的索引。62.23 62.34 62.22 62.29 0我想切片只包含符合以下条件的行的数据帧- 1.行的日期必须与指示符值为1的行相同2.只有在时间上向前的行应该被切片代码执行大约需要10-

浏览 0提问于2020-04-10得票数 0

1回答

Python循环遍历数据框并在IF中添加2个条件以使其不能达到最终索引和增量将返回错误

python、pandas、data-science

我正在尝试循环一个数据帧，以检查3个连续的索引是否满足以下条件： df.loc[idx, "GDP"] > df.loc[idx+1, "GDP"] > df.loc[idx+2, "GDP"] 一旦得到满足2): print(df.loc[idx, "Quarter"], df.loc[idx, "GDP"], len(df.index)-3) 我添加了另一个条件，以防idx在它的最大值我收到了正确<em

浏览 7提问于2020-08-26得票数 0

2回答

熊猫DataFrame替换不适用于inplace=True

python、pandas、numpy、jupyter-notebook、data-science

在数据框架的列中，我的版本号(如6.3.5、1.8、5.10.0 )保存为对象，因此很可能是字符串。我不想用任何东西去除点，所以我得到635，18,5100。我的密码想法是： row.replace(".","",inplace=True) 问题是，如果我不设置到True的位置，它就能工作，但是我们想要覆盖它并保护它。

浏览 0提问于2018-12-05得票数 3

回答已采纳

2回答

迭代熊猫系列/列的最快方法

python、pandas、dataframe、series

我更习惯循环，但一旦你得到大量数据，它们在熊猫中就会变慢。我一直在寻找迭代、iter.等例子，但想知道是否有更快的方法。我现在的情况是names = df['name'].tolist() i = i.replace(' ','_') newnames.append不太熟悉熊猫的最佳做法，所以我欢迎所有反馈。谢谢

浏览 4提问于2021-06-30得票数 0

回答已采纳

2回答

迭代Py箭头表的最快方法

pandas、pyarrow

我正在使用Pyarrow库来优化Pandas DataFrame的存储。我需要尽可能快地处理吡箭表，而不是把它转换成熊猫DataFrame (它不适合记忆)。除了循环和索引寻址之外，还有什么快速的方法来迭代Py箭头表吗？

浏览 0提问于2018-11-05得票数 11

回答已采纳

1回答

pandas是否缩短了运行时间？

python-3.x、pandas、time

我有一个用python编写的代码，其中包含不同的矩阵和for循环来更改矩阵元素。但是它需要很长时间才能运行。现在的问题是，如果我将矩阵改为pandas、DataFrames和series，是否会减少运行时间？

浏览 20提问于2020-04-28得票数 0

回答已采纳

1回答

Python -使用Numpy操作优化Lambda

python、pandas、numpy、optimization

我在优化以下计算时遇到了困难； Inner_diff_grp = np.var(list(map(lambda x : np.percentile(winw2_grp,x[0]) - np.percentile(winw2_grp,x[1]) ,[(i+7,i) for i in range(0,98,7)]))) 'winw2_grp‘是一个小尺寸的图像数组(比如5x5)。我循环遍历图像，以在每7步找到百分位数，然后计算这些值的方差。循环中的总图像约为100,000个。

浏览 28提问于2020-06-23得票数 0

回答已采纳

1回答

我正在寻找方法来提高使用Pandas库的python脚本的速度

python、python-3.x、pandas、optimization、powerbi

我是Pandas的新手，并且已经开始使用这个库来处理Power BI中的数据集。我最近不得不写一段代码来对一列整数运行一些计算，但很难将我的代码从标准python转换为Pandas。代码本质上是将列转换为列表，然后对列表中的项运行循环，将结果数字附加到一个新列表中，然后我将其添加到它自己的列中。我读到过在Pandas中运行循环可能会很慢，而且下面代码的执行确实看起来很慢。如果能帮我指明正确

浏览 0提问于2019-12-03得票数 1

1回答

“您不应该修改正在迭代的东西”。那我该怎么修改呢？

python、pandas

我在和这里看到了很多注释，您不应该修改正在迭代的东西。name = name+' '+'smith' 但是，--我仍然在编辑我正在上迭代的东西备注:我正在处理一个比这更大、更复杂的函数，它具有更多的条件和api调用等，通过100,000行客户数据。例如，如果客户来自城市X，do this，如果客户来自城市Y，do that等。所以，我不想寻找一个解决方案，这个确切<em

浏览 2提问于2019-09-18得票数 3

2回答

如何优化嵌套循环中Pandas* Dataframe的性能*

python、pandas、dataframe、performance、loops

假设下面的dataframe：data = {"Time":["2021-01-10 21:00:00", "2021-01-10 22:00:00",“ID”的总生产时间，而不考虑每个时间间隔之间的任何潜在时间间隔。”字典中，每个键的最后一个键值(ID)将等于它的总生成时间。也许我将不得不使用类似于描述的或更高效的嵌套循环之类的迭代

浏览 1提问于2021-09-08得票数 1

回答已采纳

1回答

Python Pandas与C++解决方案在文本CSV数据导入方面的性能比较

c++、python、performance、csv、pandas

我们目前有一个用C++编写的数据导入/转换工具，它主要处理文本数据(例如，几种不同格式的时间戳)，并应用一些标准化/清理。当前的解决方案速度非常快，性能非常关键。例如，我们优化以最小化/避免解析循环中的对象分配，因为这将为我们处理的每一行调用，并可能产生严重的性能影响。我们想要实现的是灵活地添加新的输入格式或简单地通过更改脚本/配置文件来应用额外的转换，而不

浏览 0提问于2013-11-08得票数 2

1回答

Pandas优化

python、numpy、pandas

我写了一个函数来处理pandas的数据。使用我的函数的%prun的分析日志张贴在底部(只有几行)。我想优化我的代码，因为我需要调用这个我写了超过4000次的函数。运行此函数一次需要37.7s。似乎最耗时的部分是numpy.ndarray的nonzero。因为我几乎所有的操作都是基于pandas的，所以我想知道pandas中的哪个函数严重依赖于这种

浏览 2提问于2014-06-24得票数 0

4回答

不使用for循环检索Pyomo解决方案

pyomo

我正在努力寻找一种有效的方法来检索优化问题的解决方案。解决方案由大约200K个变量组成，我希望在pandas DataFrame中使用这些变量。在网上搜索后，我找到的访问变量的唯一方法是通过一个for循环，它看起来像这样： for index in varobject: print

浏览 5提问于2018-01-27得票数 3

1回答

针对ubyte数据(0..255)的python Pandas优化

python、pandas、dataframe、numpy、uint64

如何将Pandas df优化为ubyte数据类型(0..255)？(对于整数，默认情况下为int64 ) 如果我将数据转换为分类类型，df会占用更少的内存吗？或者是优化它的唯一方法--使用NumPy而不是Pandas？

浏览 16提问于2021-07-01得票数 0

回答已采纳

2回答

从dataframe中找到几个对象

python、arrays、pandas、numpy、bigdata

如何避免两个for循环并优化代码以处理大数据？import pandas as pd array = np.array([[1,'aaa','bbb'],[2,'ccc','bbb'],[3,'zzzz','

浏览 2提问于2018-01-17得票数 1

回答已采纳

点击加载更多