在pandas中使用apply会在数据帧中占用很长时间

文章/答案/技术大牛

发布

1回答

、、

我正在尝试使用数据帧中的应用函数。下面是示例数据框。import pandas as pddf['T'] = [23,35,55]df['H']= df.apply(lambda x: HAPropsSI('H',

浏览 35提问于2021-09-22得票数 0

1回答

迭代pandas dataframe中的列和行

、、、、

我试图遍历我拥有的数据帧，并使用单元格内部的值，但我需要使用单元格所来自的列和行的名称。，因为我正在使用它们在另一个具有相关信息的数据框中查找值。我知道在pandas中for循环永远都会耗费时间，但是我还没有找到任何关于如何同时迭代行和列以及同时迭代的示例。还有这一点：因为a

浏览 6提问于2016-02-06得票数 0

1回答

使用apply对pandas* dataframe行进行条件计数的pythonic方法是什么？*

、、

我正在尝试对pandas数据帧中的记录进行条件计数。我是Python的新手，并且有一个使用for循环的有效解决方案，但是在大约200k行的大型数据帧上运行这个循环需要很长时间，我相信有一种更好的方法可以通过定义一个函数并使用apply来完成这一点，但是我在解决这个问题上遇到了麻烦创建一个包含两列的pandas数据帧</e

浏览 2提问于2020-06-07得票数 0

1回答

使用python在SQL Server中快速插入数据

、、、、

我要将CSV文件中的数据插入到Azure上托管的SQL Server数据库中。我能够在表中插入数据，方法是将数据读取到pandas数据帧中，并在python中的for循环中使用insert语句。我正在使用pyodbc。这种方法需要很长时间才能插入数据。我也尝试过pd.to_s

浏览 0提问于2019-10-14得票数 0

3回答

Angularjs在$apply中的性能问题，但是绑定速度很快

、、

我有一个中等大小的角度应用程序，它使用角-1.2.10和用户界面路由器-0.2.8。当我转换到特定的状态时，无论我是在ng显示中使用$animate还是手动动画，我都会在动画上得到帧速率问题。当我深入剖析分析器时，我可以看到XHR之后的$apply占用了多达200 is。我认为这是延迟的原因。当我删除我要进入的状态中的代码时，这个问题就会如期而至。更新我已经完成的incoginto模式，并使用$digest计数器运行相同的测试。

浏览 3提问于2014-02-17得票数 4

回答已采纳

3回答

快速将JSON列转换为Pandas数据帧

、、

我正在从一个数据库(JSON行)中读取数据，其中一列被存储为50k+。我想把它提取到一个熊猫数据帧中。下面的代码片段运行得很好，但效率相当低，而且在整个数据库上运行时会耗费很长时间。import pandas as pd df = pd.read_csv('http://pastebin.com/raw/7L86m9R2&#

浏览 1提问于2016-12-18得票数 24

回答已采纳

1回答

从cassandra读取大量数据到python dataframe (内存错误)

、、、

我正在尝试从cassandra到pandas数据帧读取2048维的特征向量(1百万条记录)，每次都会崩溃。我有32 GB的内存，但是我仍然不能把所有的数据读到内存中，每当我试图在内存中加载数据时，我的python程序就会崩溃。为了我的机器学习算法，我需要内存中的所有数据。(我的csv数据大小是18 is。)在pandas数据

浏览 38提问于2019-08-21得票数 2

回答已采纳

1回答

如何按Dask列出正在运行的进程？

、

我开始使用dask了。就我自己(以及我想向其演示dask的同事)的理解而言，我想构造一个基本的数据帧，执行一个基本的操作，并将执行时间与仅限pandas的实现进行比较。() 我之所以使用多进程调度程序，是因为我希望看到进程出现在一个单独的shell中的ps aux | grep python调用中。出于演示目的，是否有一种方法可以列出dask正在使

浏览 2提问于2018-06-05得票数 0

1回答

对于很长的数据库，有没有办法知道panda `to_csv`的状态？

、

在Pandas中，我有一个非常大的数据帧，我正在尝试将其写入CSV文件。它花费了很长的时间(几个小时，还没有完成)，我想知道是否有任何方法可以检查此命令中的完成百分比。我在to_csv中查找了所有的论点，但似乎没有任何帮助 https://pandas.pydata.org/pandas-docs/stable/reference&

浏览 2提问于2019-06-10得票数 1

回答已采纳

2回答

尝试使用值[row_indexer，col_indexer] =.loc，

、

这是我的代码，当我试图运行它时，我得到了这样的错误：“SettingWithCopyWarning:一个值正试图被设置在来自DataFrame的切片的副本上。尝试使用.locrow_indexer，col_indexer = value来代替”请帮助。我该怎么做？temp_df是train_df的副本，它是主数据帧( Paris_AirBNB )的切片 temp_

浏览 0提问于2020-10-21得票数 0

1回答

计算滚动窗口中第一个和最后一个值之间的差异

、、、、

我在一个单列数据帧上使用Pandas滚动窗口工具，该数据帧的索引为日期时间形式。df2 = df.rolling('3s').apply(...)

浏览 4提问于2018-01-11得票数 4

回答已采纳

1回答

创建新的Pandas分组对象

、、

在某些转换中，我似乎被迫脱离Pandas dataframe分组对象，而我想要一种返回到该对象的方法。给定一个时间序列数据帧，如果按数据帧中的一个值分组，我们将获得一个从键到数据帧的底层字典。因为结构是dataframe的关键，所以不能使用.from_dict()将该结构转换回Dataframe。据我所知，返回Pandas而不进行一些繁琐的列重命名的唯一方法是将

浏览 0提问于2014-05-06得票数 0

2回答

如何在一个pandas* dataframe行中添加具有相同id的所有元素？*

、、

我有下面的pandas数据帧，我希望在不丢失id和fruit列的时间顺序的情况下，将元素序列转换为单个列。101 watermelon102 orange105 lemon105 apple例如，新的数据帧应如下所示的def foo(row): return ', '.j

浏览 40提问于2018-06-03得票数 1

回答已采纳

2回答

将spark的MLLib例程与pandas数据帧一起使用

、、、

我有一个非常大的数据集(大约20 it )存储在磁盘上，名为Pandas/PyTables，我想在它上面运行随机森林和增强树。尝试在我的本地系统上做这件事需要很长时间，所以我想把它租给一个我可以访问的spark集群，而不是使用MLLib例程。虽然我已经设法将pandas数据帧加载为spark数据帧，但我对如何在MLLib例程中使用它感到有点困惑。我不太熟

浏览 1提问于2015-05-06得票数 0

1回答

在Pandas数据帧元素上应用条件

、、、、

我正在学习Python，我试图理解apply()方法在Pandas数据帧中是如何工作的。作为练习，我想使用一行代码对Pandas dataframe的元素应用str.upper()方法，前提是这些元素是字符串。我想将lambda条件表达式与apply结合使用，但问题是，当apply调用Pandas dataframe时，dataframe --如果我理解得很好的话--返回一个要应用

浏览 5提问于2017-01-22得票数 7

回答已采纳

1回答

Hbase1.2.1到pandas数据帧

、、、

我在hbase(v-1.2.1)中有一个表，我想在上面应用一些机器学习技术。因此，我想将我的表从hbase加载到pandas dataframe。我不能使用happybase，因为它只适用于hbase 0.9.x版本。 `

浏览 0提问于2016-04-27得票数 0

1回答

预处理后的csv数据集重建

、、

我加载了一个用于数据预处理的csv文件。完成数据预处理后，并不需要csv文件中的所有列。因此，我只想通过提取一些必要的列来重建csv文件。我应该使用什么代码？但我只需要a，b，c，d，因此， before csv file : columns = a,b,c,d,e,f,g,h,i after csv file : columns = a,b,c,d *数据集非常大，大约6 6gb *python 3.6.9 *使用pandas

浏览 14提问于2020-01-09得票数 0

回答已采纳

1回答

如何使用Azure databricks在第二代ADLS的多张工作表中读写excel数据

、、、

我想使用pyspark在Azure databricks中实现以下逻辑。我有一个下面的文件，其中有多张纸。我想将所有工作表的数据读入一个不同的文件中，并将该文件写入到ADLS2中的某个位置。注意:所有工作表都有相同的模式( Id，名称)

浏览 4提问于2021-10-27得票数 0

1回答

Python-Pandas-Dataframe-日期时间转换，不包括空值单元格

、、、、

感谢您抽出时间来看我的问题。<class 'pandas.core.frame.DataFrame

浏览 0提问于2017-09-06得票数 1

回答已采纳

2回答

使用大型数据集的pandas中的时间复杂性与内存使用量

、、

我想知道在id_row数据框中创建列的最有效方法是什么，如果给定的列表中存在一个pandas，那么它将返回1或0。我目前正在使用lambda函数来应用结果。我的问题是它花费了很长的时间，因为我的数据帧大约有2M行，它检查的列表在200k到100k之间。如果我没记错的话，这是二次时间(我真的不确定)，在这种情况下，根据对象的大小，它运行得非常慢。最糟糕的是，我不得不对100多个其他

浏览 3提问于2019-08-07得票数 0

点击加载更多