如何使用嵌套的iterrow优化pandas代码

使用嵌套的iterrow方法来优化pandas代码是不推荐的，因为iterrow方法在处理大型数据集时效率较低。iterrow方法是一种逐行迭代DataFrame的方法，它返回每一行的索引和数据，然后可以通过索引来访问每个元素。然而，由于iterrow方法需要逐行访问数据，它的性能较差，特别是在处理大型数据集时。

相反，推荐使用pandas提供的向量化操作来优化代码。向量化操作是指通过对整个数据集进行操作，而不是逐行或逐列进行操作，从而提高代码的执行效率。pandas提供了许多内置的向量化操作函数，如apply、map、applymap等，可以直接对整个DataFrame或Series进行操作，而无需使用循环或迭代。

以下是使用向量化操作来优化pandas代码的一些常见技巧：

使用向量化函数代替循环：避免使用for循环来遍历DataFrame的每一行或每一列，而是使用pandas提供的向量化函数来进行操作。例如，可以使用apply函数对DataFrame的每一行或每一列应用自定义函数。
使用条件表达式代替循环：避免使用for循环来逐个判断条件并进行操作，而是使用条件表达式来进行向量化操作。例如，可以使用np.where函数根据条件对DataFrame进行元素级别的操作。
使用聚合函数代替循环：避免使用for循环来计算统计指标，而是使用pandas提供的聚合函数来进行计算。例如，可以使用mean、sum、count等函数对DataFrame进行统计计算。
使用向量化操作函数代替元素级别的操作：避免使用循环或迭代对DataFrame的每个元素进行操作，而是使用pandas提供的向量化操作函数来进行元素级别的操作。例如，可以使用add、sub、mul、div等函数对DataFrame进行元素级别的加减乘除操作。

总之，通过使用向量化操作和pandas提供的内置函数，可以大大提高pandas代码的执行效率和性能。这样可以更好地利用pandas的优势，处理大型数据集和复杂的数据操作。

对Python熊猫数据行的更新不更新数据吗？

python、pandas、dataframe

我刚刚发现，迭代熊猫的数据行，并对每一行进行更新，并不会更新数据！这是预期的行为，还是需要先对行做一些事情，以便更新反映在父dataframe中？我知道可以在循环中直接更新dataframe，或者在这个简单的/人为的示例中对列进行简单的重新计算，但我的问题是，iterrow()似乎提供了行的副本，而不是对dataframe中实际行的引用。这有什么原因吗？ import pandas as pd fruit = {"Fruit": ['Apple','Avacado','Banana','Strawberry',

浏览 4提问于2022-11-14得票数 0

1回答

将数据加载到Catboost池对象

python、pandas、parquet、catboost、catboostregressor

我正在训练Catboost模型并使用Pool对象，如下所示： pool = Pool(data=x_train, label=y_train, cat_features=cat_cols) eval_set = Pool(data=x_validation, label=y_validation['Label'], cat_features=cat_cols) model.fit(pool, early_stopping_rounds=EARLY_STOPPING_ROUNDS, eval_set=eval_set) 对于x_train、y_train、x_validatio

浏览 5提问于2021-06-15得票数 2

回答已采纳

1回答

如何缩短在另一个列表上搜索列表的时间？

python

我试图为dataframe的特定成员更改dataframe上列‘name’的值。我试图通过用相同的名字标记相似的名字来减少len(names)，这是用fuzzywuzzy做的。我试着想出一种用嵌套循环来实现它的方法： for name in names: for index in df_faces['Nombre'].index: name2 = df_faces.loc[index,'Nombre'] try: if fuzz.ratio(name, name2)

浏览 0提问于2019-10-25得票数 2

回答已采纳

1回答

使用DataFrame ()定义在.apply上使用的函数

python、python-3.x、pandas、dataframe、apply

我想定义带有签名的自定义函数，这些签名包括dataframe的一个或几个列。我试图复制文章中提到的解决方案“如何将Pandas 'apply‘函数使用到多个列？”，但我无法理解函数需要以何种方式来接受来自其他列的数据作为输入。我的代码示例： import pandas as pd df=pd.DataFrame({'NAME':['A','B','C','D'],'HOURS':[38, 52, 1040, 28],'ROLE':['Manager',&

浏览 0提问于2018-12-29得票数 1

回答已采纳

5回答

Python -使用iterrows()中的行序列

python、pandas

我正在尝试对一个DataFrame使用iterrow()...该列可以有一个值，比如Fred、William、John和我想要计算列出了多少个名字。下面的代码运行得很好... for index, row in search_df: print(len(row["Name"].split(","))) 但是，当我尝试实际使用len()中的值时，它会给我错误...例如： for index, row in search_df: row["Number of Names"] = len(row["Name"].sp

浏览 53提问于2021-08-24得票数 2

2回答

Numpy -以向量形式编写函数？

python、numpy、vectorization

我对NumPy (或SciPy)非常陌生，来自Octave/Matlab，这对我来说似乎有点挑战性。我正在阅读文档并编写一些基本功能。我偶然看到了这个部分：它定义了以下功能： def addsubtract(a, b): if a > b: return a - b else: return a + b 然后将其矢量化： vec_addsubtract = np.vectorize(addsubtract) 但最后，它说：这个特殊的函数可以用向量形式写成，而不用矢量法。我不知道有什么别的方法来写这样的函数。那么向量形式是什么呢？

浏览 2提问于2020-09-24得票数 3

回答已采纳

1回答

如何移动为循环离开和去纯粹的潘达？

python、pandas

我正在处理庞大的数据表，并开始学习Pandas，但我遇到了这个挑战--我有一个循环，试图将所有东西从我的循环转移到Pandas --但我并不是所有我能找到的方法。 panda_dataframe = pd.read_sql(sql=sql, con=mysql_cnx, index_col='UUID') logging.debug('__setupProducts() - after mysql query : run time {time}'.format(time=datetime.datetime.now() - start_time)) loggin

浏览 0提问于2018-03-15得票数 1

回答已采纳

1回答

如何在Pandas函数中使用np.Vectorize()？

python、pandas、numpy、vectorization、apply

我有一个以Pandas DataFrame格式操作的函数。它适用于pandas.apply()，但不适用于np.Vectorize()。请查找以下功能： def AMTTL(inputData, amortization = []): rate = inputData['EIR'] payment = inputData['INSTALMENT'] amount = inputData['OUTSTANDING'] amortization = [amount] if amount - payment &l

浏览 17提问于2022-09-21得票数 0

2回答

：在应用中使用行号

python、pandas

我只是从Pandas开始，我遇到了以下问题:我想在df.apply()中使用行号，以便它计算(1+0.05)^(row_number)，ex：(1+0.05)^0在第一行，(1+0.05)^1在第二行，(1+0.05)^2在它的第三行…… 我尝试了以下方法，但得到了AttributeError：'int‘对象没有属性'name’ import pandas as pd considered_period_years = 60 start_year = 2019 TDE = 0.02 year = list(range(start_year,start_year+conside

浏览 0提问于2019-11-21得票数 1

回答已采纳

2回答

如何向量化基于最后x行数据的Pandas计算

python、pandas

我有一个相当复杂的预测代码，超过20列和使用wls的每列数百万数据。现在我使用iterrow遍历日期，然后根据这些日期和这些日期中的值，提取不同大小的数据进行计算。在我的产品中运行它需要几个小时，我将代码简化为以下几个部分： import pandas as pd import numpy as np from datetime import timedelta df=pd.DataFrame(np.random.randn(1000,2), columns=list('AB')) df['dte'] = pd.date_range('9/1/2014

浏览 0提问于2016-06-26得票数 7

1回答

如何通过在每一行上操作来在dataframe中创建列？

python、pandas、dataframe、apply

我有一个apply函数，它对数据中的每一行进行操作。apply函数的结果是一个新的值。此新值用于该行的新列中。因此，在将此函数应用于dataframe中的所有行之后，该dataframe中将有一个全新的列。如何在pandas中做到这一点？

浏览 3提问于2015-12-20得票数 1

回答已采纳

3回答

如何在python中使用嵌套的for循环？

python、arrays、for-loop、nested-loops

我正在尝试创建一个基于Python中另一个数据框的值的数组。我希望它像这样填充数组。 If x > or = 3 in the dataframe then it inputs a 0 in the array. If x < 3 in the dataframe then it inputs a 1 in the array. If x = 0 in the dataframe then it inputs a 0 in the array. 下面是我到目前为止的代码，但结果如下所示 array = np.array([]) for x in df["disc&

浏览 34提问于2020-08-07得票数 0

1回答

将dask dataframe转换为dataframe太慢，使用它并行处理时不会节省时间。

pandas、dask

import pandas as pd import dask.dataframe as dd import time import warnings warnings.simplefilter('ignore') data['x'] = range(1000) data['y'] = range(1000) def add(s): s['sum'] = s['x']+s['y'] return s start = time.time() n_data = da

浏览 0提问于2018-09-29得票数 0

回答已采纳

1回答

熊猫的替代有效方法

python、pandas

我试图使用熊猫pd.DataFrame.where如下： df.where(cond=mask, other=df.applymap(f)) 其中，f是用户定义的在单个单元上操作的函数。我不能使用other=f，因为它似乎产生了不同的结果。所以，基本上，我想求函数f，在DataFrame的所有单元格上，它不满足某些条件，这就是给出的mask。上面使用where的使用效率不高，因为它会立即为整个DataFrame df计算f，而我只需要在DataFrame的某些条目上对它进行评估，与整个DataFrame相比，有时可能是非常少的特定条目。是否有其他办法可以更有效地解决这一一般情况？

浏览 0提问于2017-10-19得票数 1

回答已采纳

3回答

使用带有2个变量的lambda函数和if else语句分配新列

python、pandas、dataframe、lambda、assign

设置数据文件： import pandas as pd import numpy as np np.random.seed(99) rows = 10 df = pd.DataFrame ({'A' : np.random.choice(range(0, 2), rows, replace = True), 'B' : np.random.choice(range(0, 2), rows, replace = True)}) df A B 0 1 1 1 1 1 2 1 0 3 0 1

浏览 2提问于2018-10-26得票数 3

回答已采纳

1回答

嵌套if语句的矢量化

performance、matlab、vectorization

Problem I目前正在处理大约1800万个点数据集，这些数据集运行在不同的进程中。在配置文件查看器上，我发现我的瓶颈之一是代码的这一部分，因此我想知道是否可以向量化多个if -语句。码 WA=zeros(size(NB_list_z,1),3); for i=1:size(NB_list_z,1); if (NB_list_z(i,2)==0||NB_list_z(i,3)==0); WA(i,1)=BMLS(NB_list_z(i,1),5); else if (BMLS(NB_list_z(i,3),5)>=COG);

浏览 3提问于2016-06-30得票数 0

3回答

在Pandas DataFrame上迭代以提取数据

python

我有一个DataFrame，它在列中包含小时间隔，在行中包含员工ID。我想迭代每一列(每小时间隔)，并仅当该列包含数字1 (1表示在该小时内可用，0表示不可用)时才将其提取到列表中。我已经尝试了iterrow()和iteritems()，但这两种方法都没有给出我想要从这个DataFrame中看到的东西这是一个新列表，名为可用= 0800、0900、1000、1100 然后，我可以提取最小值和最大值来创建计划。如果我对Python3和Pandas很陌生，我很抱歉

浏览 22提问于2021-05-18得票数 0

回答已采纳

2回答

如何使用应用于每行多个切片的函数来转换pandas中的DataFrame？

python、pandas

我想将函数f应用于pandas DataFrame的每一行中的许多切片。例如，DataFrame df将如下所示： df = pandas.DataFrame(np.round(np.random.normal(size=(2,49)), 2)) 因此，我有一个2行乘49列的数据帧，并且我的函数需要应用于两行中7个数据点的每个后续切片，以便结果数据帧看起来与输入数据帧相同。我是这样做的： df1=df.copy() df1.T[:7], df1.T[7:14], df1.T[14:21],..., df1.T[43:50] = f(df.T.iloc[:7,:]), f(df.T.iloc[

浏览 9提问于2014-11-16得票数 1

1回答

用dplyr进行行向操作

r、performance、parallel-processing、dplyr

我正在研究一个大的数据，在R中有2300万条记录，其中包含用户在具有启动和停止时间的位置上的事务。我的目标是创建一个新的dataframe，其中包含每个用户/每个位置连接的时间。我们把这叫做每小时连接。事务处理从8分钟到48小时不等，因此目标数据将是大约1亿条记录，并且每个月都会增长。下面的代码显示了如何开发最终的数据，尽管总的代码要复杂得多。在Intel(R) Xeon(R) CPU E5-2630 v3 @ 2.40GHz上运行整个代码需要9个小时，16核128 v3内存。 library(dplyr) numsessions<-1000000 startdate <-a

浏览 2提问于2016-01-26得票数 15

1回答

线性化矩阵CUDA中的唯一行

c++、matrix、cuda、thrust

我将线性化矩阵存储为thrust::device_vector<int> 本质上，它是存储在这样大小的线性数组中的维nv的矩阵。我想从这个矩阵中得到唯一的行。如果至少有一个元素不同，则两行是唯一的。我想使用CUDA、thrust::sort和thrust::unique函数来实现这一点。我相信我需要构造一个与每一行相对应的迭代器，然后用一个函子对行元素进行比较，然后调用排序。但我不清楚如何做到这一点。使用跨区迭代器将允许我指定每一行的开始，但函子的实现尚不清楚。这似乎是一个应该用推力解决的问题。有什么更好的办法吗？

浏览 0提问于2016-01-09得票数 0

回答已采纳

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何使用嵌套的iterrow优化pandas代码

相关·内容

对Python熊猫数据行的更新不更新数据吗？

将数据加载到Catboost池对象

如何缩短在另一个列表上搜索列表的时间？

使用DataFrame ()定义在.apply上使用的函数

Python -使用iterrows()中的行序列

Numpy -以向量形式编写函数？

如何移动为循环离开和去纯粹的潘达？

如何在Pandas函数中使用np.Vectorize()？

：在应用中使用行号

如何向量化基于最后x行数据的Pandas计算

如何通过在每一行上操作来在dataframe中创建列？

如何在python中使用嵌套的for循环？

将dask dataframe转换为dataframe太慢，使用它并行处理时不会节省时间。

熊猫的替代有效方法

使用带有2个变量的lambda函数和if else语句分配新列

嵌套if语句的矢量化

在Pandas DataFrame上迭代以提取数据

如何使用应用于每行多个切片的函数来转换pandas中的DataFrame？

用dplyr进行行向操作

线性化矩阵CUDA中的唯一行

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐