性能问题pandas 6mil行

文章/答案/技术大牛

发布

1回答

pandas、performance、jupyter-notebook

第一行有58k行，其他100行。我想以这样一种方式进行连接，即58k行中的每一行都有来自其他df的100行。所以总共有580万行。性能非常差，需要1小时才能完成10%。有什么改进的建议吗？print('Current progress:',np.round(i/len(cust_loc)*100,2),'%') return cust_loc_vend 例如，如果第一DF具有5行，而第

浏览 12提问于2020-06-12得票数 1

1回答

我被困在一个与熊猫消费有关的问题上：df = pd.DataFrame({"IDs": [1, 1, 1, 2, 2, 2, 3, 3, 3],column1'].ewm(span=3, adjust=True).sum()注意，唯一的IDs包含大约500 k的元素，原始的dataframe包含大约6mil如果我只对temp = df[df.IDs == id]行进行循环，并且估计的时间是相同的(基本上是熊猫函数，所以不应该出现任何性能<e

浏览 4提问于2022-07-23得票数 2

回答已采纳

1回答

改进比较熊猫数据行的for循环的性能

python、performance、pandas

我面临Python/Pandas的性能问题。我有一个for循环，比较Pandas DataFrame中的后续行： if df.column_A.iloc[i] == df.column_A.iloc我的dataframe大约有100万行，我想知道是否有什么方法可以提高性能。我读过关于向量化的文章，但我不知道从哪里开始。

浏览 0提问于2018-06-27得票数 2

回答已采纳

2回答

将NumPy数组导出到Tableau Extract (.tde)

python、api、pandas、tableau-api、tde

我在docs和库中看到的所有示例都循环遍历每一行。我只想导入一个数组作为整个表列，但不清楚这是不是很容易。迭代每一行的效率很低，我想有一种简单的方法可以通过数组来加快速度。任何将NumPy或pandas与Tableau API结合使用的经验都将不胜感激。谢谢!

浏览 1提问于2015-05-22得票数 4

1回答

pandas iterrow的性能问题

python、pandas

当我开始扩展我的数据分析时，我在我的数据帧上遇到了性能问题。这是我正在使用的当前循环。我成功地运行了这个小数量的数据(大约1000行)，但当我扩展到10倍时，我遇到了性能问题。有什么建议吗？

浏览 4提问于2018-02-25得票数 0

回答已采纳

1回答

Pandas性能分析安装问题

python、python-3.x

我正在尝试为我的python 3.9安装pandas分析，但是我得到了以下错误 command: 'packages: llvmlite, visions, seaborn, pyyaml, numba, joblib, imagehash, phik, missingno, htmlmin, confuse, pandas-profilingpackages: llvmlite, visions, seaborn, pyyaml, numba,

浏览 11提问于2021-02-26得票数 0

1回答

Python Pandas与C++解决方案在文本CSV数据导入方面的性能比较

c++、python、performance、csv、pandas

当前的解决方案速度非常快，性能非常关键。例如，我们优化以最小化/避免解析循环中的对象分配，因为这将为我们处理的每一行调用，并可能产生严重的性能影响。问题是:我们是否能够使用Python Pandas数据处理框架实现类似的性能，因为它中的大多数似乎也使用了低级优化的C代码。(这里的“可比较”是指性能差异在一定的范围内，可以通过添加2-4个额外的线程来弥补) Pandas是这项工作的合适工具吗?还是有不同的建议？

浏览 0提问于2013-11-08得票数 2

1回答

如何在迭代过程中修改Pandas系列(DataFrame)？

python、pandas、reference、iteration、in-place

根据另一个函数，我需要在Pandas系列(列)中重新定义值。import pandas as pdfor index, value in s.items(): assert_equal(s[inde

浏览 10提问于2022-10-27得票数 1

回答已采纳

7回答

提高Pandas DataFrames的行附加性能

python、python-2.7、numpy、pandas

我正在运行一个基本脚本，该脚本遍历嵌套字典，从每个记录中获取数据，并将其附加到Pandas DataFrame中。在我寻找一种并行化的方法之前，我只想确保我没有遗漏一些显而易见的东西，这些东西会使它表现得更快，因为我对Pandas还是很陌生的。

浏览 2提问于2015-01-13得票数 53

回答已采纳

1回答

Pandas MultiIndex的简单用例

python、pandas

我正在尝试在Pandas数据帧上编写一个简单的查询0 1 2.10 3 4.0我希望选择所有行作为WHERE A=0 and B>1，因此我希望作为输出(df["A"] == 0) & (df["B"] > 1) ] 1 0 2 3.0它可以工作，但在我的实际用例中速度很慢，因为有更多的行。浏览完pandas 之后，我不清楚如何使用索引来提高上述查询的<

浏览 20提问于2018-03-04得票数 1

1回答

传递数据帧的多个列以获取值并将其分配给新列

python、pandas、dataframe

我正在使用手机发帖，所以为没有提供代码而道歉。我的组织不允许我访问此网站。SomeFunction(col1, col2): Return list 注意:我已经能够使用for循环对其进行归档，但这需要花费很多时间。还有更多的列，所以我必须在data dataframe中指定列名。

浏览 4提问于2018-12-17得票数 0

2回答

如何有效地从一个大的excel文件中读取数据，进行计算，然后将结果存储回python？

python、excel、python-3.x、pandas、dataframe

假设我有一个100k行的excel文件。我的代码正在尝试逐行读取它，并对每行进行计算(包括执行每行所需时间的基准测试)。然后，我的代码将生成一个包含100k行的结果数组。我认为这样会导致内存问题，因为我的excel在单元格中有非常大的文本(不仅仅是数字)。engine="xlsxwriter") writer.save() 我想要的是从excel中读取第一行并将其存储在内存中，进行计

浏览 24提问于2019-04-26得票数 0

2回答

高效地选择与Pandas DataFrame中的几个值之一相匹配的行

python、pandas

问题Name AmountAlice 100Charlie200Charlie 10---------------Bob 50问题在Pa

浏览 4提问于2014-03-18得票数 65

回答已采纳

1回答

提高大熊猫群的性能

python、pandas

当我编写它时，我最初在Pandas DataFrames上进行了数据处理，但是当这导致了糟糕的性能时，我最终用普通的Python重写了它，使用的是for循环，而不是矢量化的操作，列表和切分，而不是DataFrames令我惊讶的是，用vanilla编写的代码的性能最终远远高于使用Pandas编写的代码。数据处理步骤的核心包括以下内容:我首先将行划分为几个组，因为数据由数千个时间序列(每个“个体”一个)组成，然后对每个组进行相同的数据处理:大量汇总，将不同的列组合成新的列，等等。我使用朱庇特笔记本的lprun

浏览 1提问于2017-11-20得票数 37

回答已采纳

2回答

使用python删除大型csv文件的前两行

python、csv

我想使用python删除一个巨大的csv文件(3 3GB)的标题和第一行，性能很好。import csv data = pd.read_csv(csv_file) remove2rows(filename) 这个脚本可以工作，但需要一些时间，可能是因为它读取整个文件，并将从第3行开始到文件末尾的每

浏览 2提问于2019-12-18得票数 0

1回答

如何向初始空的pandas* Dataframe迭代添加行？*

python-3.x、pandas

我不得不迭代地向pandas DataFrame添加行，但我发现这很难实现。另外，在性能方面，我不确定这是否是最好的方法。因此，我会时不时地从服务器获取数据，而这个来自服务器的新数据集将成为我的pandas DataFrame中的新行。import pandas as pd # as thisdf will grow ove

浏览 10提问于2019-11-09得票数 0

回答已采纳

3回答

查看Python相关矩阵条目的常见观察计数的快速方法

python、numpy、pandas、missing-data

假设我有一个名为pandas.DataFrame的df。df的列表示不同的个体，索引轴表示时间，因此(i，j)条目是单个j对时间段i的观测，我们可以假设所有数据都是float类型，可能有NaN值。在我的例子中，我有大约14,000列和几百行。not_null_locations = pandas.notnull(df).values.astype(int) common_obs

浏览 3提问于2013-08-14得票数 7

回答已采纳

1回答

为什么Pandas将DataFrame的一个行(或列)转换为一个系列？

python、pandas、performance

由于有了，我发现这会导致错误，因为Pandas会自动将单一行或列从Dataframe转换为系列，并且很容易通过使用df.iloc[[n]]而不是df.iloc[n]来解决。问题：我的问题是为什么潘达斯要这么做？用Series代替DataFrames有一些性能上的好处吗？这个自动转换为一个系列背后的理由是什么？

浏览 3提问于2021-05-05得票数 1

回答已采纳

5回答

Pandas:从每行的随机列中选择值

python、pandas、dataframe、random

假设我有如下的Pandas DataFrame： df = pd.DataFrame({ 'b': [4, 5, 6],}) a b c1 2 5 81 2dtype:

浏览 45提问于2019-07-25得票数 4

回答已采纳

4回答

Oracle Apex Interactive报告加载时性能不佳

performance、oracle-apex-5

我的一个APEX应用程序中有一个交互式报告。IR中使用的SQL查询在SQL Developer中执行时运行得很好。它加载缓慢的可能原因是什么？IR中使用的SQL查询获取10k条记录。

浏览 1提问于2017-03-15得票数 1

点击加载更多