Pandas应用函数速度慢

Pandas 是一个强大的数据处理库，但在处理大规模数据集时，可能会遇到应用函数速度慢的问题。以下是一些基础概念和相关解决方案：

基础概念

Pandas DataFrame: 一个二维表格数据结构，类似于Excel表格或SQL表。
应用函数 (apply): Pandas 中的一个方法，用于对DataFrame的行或列应用自定义函数。

速度慢的原因

单线程处理: Pandas 的 apply 方法默认是单线程的，无法充分利用多核CPU的优势。
函数效率低: 自定义函数可能包含复杂的逻辑或不必要的计算，导致执行效率低下。
数据规模大: 当处理的数据量非常大时，即使是高效的函数也会显得缓慢。

解决方案

1. 使用向量化操作

向量化操作是提高Pandas性能的关键。尽量使用内置的向量化方法，如 map, applymap, replace 等。

import pandas as pd

# 示例数据
df = pd.DataFrame({'A': range(1000000)})

# 使用向量化操作
df['A'] = df['A'].apply(lambda x: x * 2)

2. 使用 `numba` 加速

numba 是一个JIT编译器，可以将Python函数编译为机器码，从而显著提高性能。

import pandas as pd
from numba import njit

# 示例数据
df = pd.DataFrame({'A': range(1000000)})

# 使用numba加速
@njit
def multiply_by_two(x):
    return x * 2

df['A'] = df['A'].apply(multiply_by_two)

3. 使用 `swifter` 库

swifter 是一个库，可以自动选择最有效的并行化方法来加速 apply 操作。

import pandas as pd
import swifter

# 示例数据
df = pd.DataFrame({'A': range(1000000)})

# 使用swifter加速
df['A'] = df['A'].swifter.apply(lambda x: x * 2)

4. 分块处理

对于非常大的数据集，可以考虑分块处理，每次处理一部分数据，然后将结果合并。

import pandas as pd

# 示例数据
df = pd.DataFrame({'A': range(1000000)})

# 分块处理
chunk_size = 100000
results = []

for chunk in pd.read_csv('large_dataset.csv', chunksize=chunk_size):
    chunk['A'] = chunk['A'].apply(lambda x: x * 2)
    results.append(chunk)

final_df = pd.concat(results)

5. 使用 `Dask`

Dask 是一个并行计算库，可以处理比内存更大的数据集，并且可以与Pandas API兼容。

import dask.dataframe as dd

# 示例数据
df = dd.from_pandas(pd.DataFrame({'A': range(1000000)}), npartitions=10)

# 使用Dask加速
df['A'] = df['A'].apply(lambda x: x * 2, meta=('A', 'i8'))

# 计算结果
result = df.compute()

应用场景

数据清洗: 在数据预处理阶段，对数据进行各种转换和清洗操作。
数据分析: 在进行复杂的数据分析时，需要对数据进行各种计算和处理。
机器学习: 在特征工程阶段，对数据进行各种特征提取和转换。

通过以上方法，可以显著提高Pandas应用函数的速度，特别是在处理大规模数据集时。

页面内容是否对你有帮助？

有帮助

没帮助

Pandas应用函数速度慢

、、

我有一个数据帧(大约1-3M条记录)，我正在对其运行apply()函数。这需要相当长的时间。我读到了一些不应该使用apply()的地方，但是我不确定如何在不使用它的情况下完成相同的任务。

浏览 13提问于2019-12-18得票数 0

2回答

将多个列乘成一列

、

使用for循环的解决方案可以工作，但速度慢得令人痛苦。下面，我尝试了另外两个失败的应用程序。如有任何建议，敬请见谅。Pandasdf = pd.DataFrame({'a':[1,2,3], 'b':[4,5,6], 'c':[7,8,9]})Dask

浏览 20提问于2020-10-01得票数 1

回答已采纳

1回答

熊猫，如何将多个列组合成数组列

、、

我需要放置一个合并列作为行的所有值的连接。pd.DataFrame(data={ 'b' : [2,3,4]目标： 'a' : [1,2,3], 'combine' : [[1,2],[2,3],[3,4]]目前的解决办法： test['combine'] = test[['a','b']].apply(

浏览 1提问于2017-12-28得票数 14

2回答

使用loc对Pandas DataFrame进行选择性操作，而不覆盖未选定的行

、、

我想应用一个算术操作来选择Pandas DataFrame的行，选择取决于另一列。我首先尝试定义一个函数，并使用apply来计算值，但速度慢得令人望而却步，因为我猜函数逻辑是针对每一行求值的。使用loc应用操作要快得多，但当我依次应用此操作时，每次都会用NaN覆盖未选定的行。

浏览 4提问于2019-12-17得票数 1

回答已采纳

2回答

如何有效地从一个大的excel文件中读取数据，进行计算，然后将结果存储回python？

、、、、

假设我有一个100k行的excel文件。我的代码正在尝试逐行读取它，并对每行进行计算(包括执行每行所需时间的基准测试)。然后，我的代码将生成一个包含100k行的结果数组。我做了我的python代码，但是效率不高，而且花了我几天的时间，而且我猜由于高内存消耗，基准测试结果变得更糟。请看我的尝试，让我知道如何提高它。我的代码保存了results=[]，并且只在末尾编写它。另外，在开始时，我将整个excel文件存储在worksheet中。我认为这样会导致内存问题，因为我的excel在单元格中有非常大的文本(不仅仅是数字)。 ExcelFileName = 'Data.xlsx'

浏览 24提问于2019-04-26得票数 0

1回答

jquery均匀像素矩阵设计

、

我对运行速度慢的计算机/浏览器有一个问题，在渲染样式统一的下拉列表之前，用户会看到“正常”的下拉列表，然后它就会变成应用的样式。我找不到可以在应用样式后显示div的回调函数。

浏览 2提问于2011-01-19得票数 1

1回答

如何移动为循环离开和去纯粹的潘达？

、

我正在处理庞大的数据表，并开始学习Pandas，但我遇到了这个挑战--我有一个循环，试图将所有东西从我的循环转移到Pandas --但我并不是所有我能找到的方法。

浏览 0提问于2018-03-15得票数 1

回答已采纳

1回答

用Python计算/估计lognorm的ppf的快速方法

、、

我有一个数据密集型应用程序，其中一个核心计算使用对数正态分布的百分比点函数。该代码目前使用的是Scipy，但速度慢得令人难以忍受。是否有更有效地使用numpy或其他包计算/近似此函数的方法？

浏览 1提问于2021-08-06得票数 0

回答已采纳

4回答

Pandas应用函数

、、、

我正在尝试将一个函数应用于一个pandas数据帧，我想要应用的函数是创建一个值为'abc‘的新列。但是输出结果并不是我所期望的。下面是包含输入和输出的代码： import pandas as pd print(df) #

浏览 32提问于2021-04-30得票数 2

回答已采纳

2回答

Pandas -在groupby中获取频率值

、、、

有没有人能帮我解决熊猫里的(可能的) groupby问题？ easy_donor v_fam count1 donor_1_NS IGHV2 19555473 donor_1_NS IGHV4 4523675 donor_1_NS IGHV6 49014224 donor_2_

浏览 0提问于2016-06-03得票数 2

回答已采纳

1回答

两个数据帧的每一行之间的自定义距离函数

我有两个数据帧，我想要使用自定义距离度量(例如，第一列的欧几里德，第二列的出租车，等等)来计算一个数据帧中每一行与另一数据帧中每一行之间的“距离”。有没有一种方法可以用广播快速做到这一点？

浏览 9提问于2021-09-14得票数 0

1回答

Spark中的用户定义函数(UDF)是否在集群工作节点上并行运行？

、

假设我在python中创建了一个函数，所以将一个数字求幂为2： def squared(s):%sql select id, squaredWithPython(id) as id_squared from test 那么，如果数据分布在工作节点的内存上，squaredWithPython函数是否会在群集的工作节点上运行

浏览 33提问于2019-10-10得票数 0

回答已采纳

2回答

添加具有子网第一个IP地址的列

、、、、

我有PySpark数据格式，列名为“子网”。我想添加一个列，它是该子网的第一个IP。我尝试过许多解决方案，包括 n = ipaddress.IPv4Network(prefix) return first 但犯了错误： -> 1161 raise AddressValueError("

浏览 14提问于2022-09-02得票数 1

2回答

Python:无法将字符串转换为数字

、、

我使用的是Python 3.4和pandas 0.14.1 (不能使用pandas post，因为它让我的循环速度慢了50倍--所以我需要单独解决这个问题) 我尝试了pd.read_csv(dtype=

浏览 1提问于2016-10-25得票数 2

1回答

应用比较运算符后如何输出到另一列

、、

我的dataframe中有一些交易数据。我尝试做的是基于几个条件检查一列中的值是否大于另一列中的值。之后，我想创建一个新列并输出结果(-1,1或0)。 for n in range(0,len(df)): print("1") elif df['Close'].iloc[n

浏览 16提问于2018-12-23得票数 1

回答已采纳

1回答

使用代理键重构DB

、

我们有一个数据库，大约有800个表，在过程和函数之间有4000个表，并且大量使用组合键。问题是:你会一块一块地改变表和所有的过程/函数来使用组合键的代理键吗？谢谢你的建议。原因是:检索数据的速度慢，重建索引的速度慢。但我不确定这些是不是一个很好的理由。

浏览 13提问于2015-03-13得票数 0

4回答

从时间戳生成日期时间格式字符串

、、、

%Y %H:%M:%S,%f'我使用pandas.to_datetime()来生成datetime对象以进行进一步的处理。这个功能很好，但是这个函数速度慢(使用dateutil.parser.parse )，有大量的数据(>~50k)。为此，我目前正在使用pandas.to_datetime()。这个函数工作得很好，但是速度很慢，因为我有超过50k数据集的一些文件。为了加速这个过程，我在函数pandas.to_datetime中传递一个格式字符

浏览 5提问于2016-07-08得票数 0

2回答

在JavaScript中使用JavaScript的共识是什么？

、

不久前，我读到您不应该在函数中使用，因为它使函数不可持久。为了测试这个断言，我编写了以下基准：在Chrome中，速度慢了80%。

浏览 2提问于2013-08-15得票数 4

回答已采纳

1回答

Pandas应用函数问题

、、

但我一直收到以下错误消息：我查看了文档，它说apply函数的第一个参数应该是一个函数

浏览 2提问于2017-02-11得票数 2

回答已采纳

2回答

应用Pandas函数?？实现

、、、

我做了一些这样的函数：data['Age'] = data[['Age',School]].apply(age_implementation, axis = 1)通过这样做，我想要根据孩子的学校在“年龄”列中填充NaN值，这是我的"age_implementation“函数的定义之一。然而，当我尝试使用上面的代码应用函数时，没有任何变化，我如何应用这个函数？

浏览 2提问于2019-12-14得票数 0

点击加载更多