在pandas中提高行操作的速度

、

我正在上Coursera的课程，我有一个数据集可以对其执行一些操作。我已经得到了这个问题的答案，但我的答案需要时间来计算。 2000-Q1的新值应该是这三个值的平均值。同样，2000-04、2000-05、2000-06将变为2000-Q2，新值应为2000-04、2000-05、2000-06的平均值。下面是我是如何解决这个问题的。首先，我定义了一个函数quarter_rows()，它接受一行数据(

浏览 5提问于2017-01-15得票数 2

回答已采纳

1回答

当行人使用任何逻辑进入时，如何在从PedSource设置一个速度后，在出口时改变行人的速度？

使用pedSource，我设定了进入建筑物时的舒适和初始速度在1米/秒左右，但我想提高行人的速度，当它离开时，它是约2米/秒使用pedGoTo。我该怎么用任何逻辑来做呢？

浏览 0提问于2019-05-20得票数 0

回答已采纳

1回答

在pandas列中存储列表的最有效方法是什么？

、、

我有一个包含1亿条tweet的熊猫数据帧。我想在这些URL上运行分析(比如按域名排序，找出哪种类型的用户发布了哪些域)。是否可以像这样存储：其中的URL列是具有动态大小的pandas系列，以便我可以轻松处理？否则，在应用pandas操作和速度的同时，存储urls的最好方法

浏览 0提问于2019-03-05得票数 1

1回答

如何在pandas中提高iterrows操作速度

、、

我有一个数据框，其中包含数千个条目，其中包含不同变量组合的回归结果。回归的组合是使用单变量列表和itertools组合函数形成的。我现在正在寻找一种方法来删除需要删除的变量组合，因为它们代表类似的度量。我已经列出了所有不能同时出现的变量。我的代码遍历包含组合的数据框，并使用collections.Counter函数计算重复列表中每一行中的元素数量。如果行中有两个或更多元素，则不会将该行复制到新清理的数据框中。我的代码

浏览 10提问于2018-07-30得票数 0

回答已采纳

1回答

用于多数据帧操作的Pandas矢量化

、

我希望在pandas中提高操作的速度，我已经了解到，通常最好的方法是使用矢量化。我正在寻找帮助的问题是向量化下面的操作。设置：df2 =另一个(相当大的)表，其中包含日期-时间列和城市列for i, row in df2.iterrows(): for x,') and row['city'

浏览 2提问于2019-11-15得票数 0

回答已采纳

1回答

在Pandas中提高处理速度

、、、

我正在比较垂直处理中一列上的一个dataframe和另外三个，我想知道这个过程是否可能使用更多的内核/使其更快？我试过concurrent.futures.ProcessPoolExecutor()，但它实际慢了1秒...这是我的代码 # df_out is main DataFrame, hikari_data_df

浏览 12提问于2020-06-10得票数 0

1回答

如何使用python从GPS (经度和纬度)时间序列数据中提取速度和加速度特征？

、、、

我想从GPS数据中提取尽可能多的数字特征(经度和纬度)。我正在使用pandas和python。我感兴趣的主要特性是速度、横向和纵向加速度。数据样本如下所示，每1秒读取一次。我在谷歌上搜索答案，然而，我只能找到速度和地图可视化的方程式。然而，我相信可以从这些数据中提取更多的特征。

浏览 1提问于2017-09-27得票数 2

1回答

将dask dataframe转换为dataframe太慢，使用它并行处理时不会节省时间。

、

import pandas as pd import dask.dataframe as dd import timewarnings.simplefilter=1)d_data = dd.from_pandas{} sec'.format(time.time()-start))结果是：花费时间是1.029724

浏览 0提问于2018-09-29得票数 0

回答已采纳

1回答

从pypyodbc数据库查询返回单个字符串

、、、、

我试图从MSSQL DB中提取一个值，代码如下所示：import pypyodbcdf = pd.read_sql_query(query, connection) 但是这会返回一个dataframe对象，是否有一个方法只返回一个字符串值，可能没有Pandas最重要的是速度。是否有一种更快捷的连接/查询方式

浏览 2提问于2017-07-26得票数 0

回答已采纳

1回答

数据丢失，在现有.xlsx文件中添加新工作表时，具有多个工作表的.xlsx文件的格式已更改

、、、、

我有一个包含多个sheet - shee1, sheet2 ,sheet3的Final.xlsx，每个表都有一些图形和数据。我有另一个文件file5.xlsx，我想添加到选项卡中的Final.xlsx中。下面的代码工作正常，但是Final.xlsx现有的工作表数据(内容、格式、grpahs等)丢失了。import pandas writer= panda

浏览 4提问于2018-08-29得票数 0

1回答

Pandas函数将多输入函数应用于数据帧中的每个单元格？

、

我正在通过读取pandas中的csv文件来设置数据帧，列表示不同样本的一维位置参数中的点，每行表示0.01秒的时间段。我想创建一个新的数据帧来表示速度和加速度(所以基本上将操作[point(i)-point(i-1)]/0.01)应用于数据帧中的每个单元。我在使用pandas.applymap或其他方法时遇到了问题，因为我不太知道如何在每个操作的

浏览 30提问于2019-04-28得票数 0

1回答

循环操作Pandas中数据的速度更快

、、

我正在处理具有~(100000, 50)形状的熊猫数据格式，虽然我可以实现所需的数据格式和操作，但我发现我的代码运行所需的时间比预期的长(3-10分钟)，这取决于具体任务，包括：检查值是否包含在单独的列表或numpy数组中。将来我将拥有更大的数据帧，并希望确保使用适当的编码方法来避免非常长的处理时间。我发现我

浏览 3提问于2016-09-12得票数 1

回答已采纳

2回答

xlsx中的getHighestColumn不工作

、

getHighestRow() return $this->objPHPExcel->setActiveSheetIndex(0)->getHighestRow();我在.xls和.xlsx中保存了相同的excel文件，它有10列(从B到K)和10行当我使用getHighestColumn时，在.xls中我得到的是'K‘(正确)，但在.xlsx中我得到的是AMK (所有excel工作表中的最后一列)，使用.xls时我得到

浏览 1提问于2013-04-09得票数 6

回答已采纳

1回答

基于时间戳的时间序列值的Numpy (或scipy)入库

、、、

例如： import numpy as npvalues = np.random.randomtimeseries_df.groupby("Bins").max()["Timestamps"] ds_values = timeseries_df.groupby("Bins").mean()["Values"] 这是可行的，但我正在编写可以重用的</

浏览 18提问于2021-11-05得票数 1

回答已采纳

1回答

在Pandas中合并索引上的数据帧效率更高

、、、

为什么在索引上合并Pandas中的数据帧比在列上合并数据帧更有效(更快)？import pandas as pd df = pd.DataFrame({'ID': [0, 1, 2, 3, 4],33, 41, 42, 50, 45, 28, 32]})df = df.set_index('ID') 这代表

浏览 1提问于2018-06-21得票数 18

1回答

pandas多个独立索引(非多个索引)

、

我在python中有几个大型的pandas data frames，我想通过添加index来提高join操作的速度。在向database table添加索引的类似代码行中。当搜索时，我看到的只是multi-index选项。它看起来就像数据库中的composite index/multi column index。我需要的是几个列上的独立索引(独立，因为这些列是不相关<em

浏览 17提问于2020-12-02得票数 1

1回答

Pandas作为Flask应用程序的快速数据存储

、、、、

运行转换的速度、加载数据的速度和Pandas的易用性给我留下了深刻的印象，我想利用所有这些优秀的属性(以及其他)来对一些大型数据集(大约100-200k行，<20列)进行建模。其目标是在一些计算节点上处理数据，但也通过Flask在浏览器中提供数据集的视图。我目前使用的是Postgres数据库来存储数据，但是导入数据(来自csv文件)速度慢、

浏览 3提问于2014-07-09得票数 9

1回答

oracle行锁的长队列时间

、

当我在oracle 9 DB中运行下面的Sql命令时，我一直遇到"enq: TX - row锁争用“。该表mytable是一个小表，少于300行。我知道我将面临这个死锁问题，但对我来说，问题是它们应该能够更快一些，因为表很小，所以更新它将是快速的。编辑：我不能修改这段代码，它在第三方应用程序中。我只能调整数据库。我能做些什么来提高行锁队列的速度？如何改进这个等待时间，使我的线程运行得更快？

浏览 1提问于2010-03-11得票数 2

回答已采纳

1回答

为什么group_by -> filter ->汇总在R中比pandas快？

、、、、

我正在将我们的一些旧代码从R转换到python。在这个过程中，我发现熊猫比R慢一点。我有兴趣知道我是否做错了什么。R代码(在我的系统上大约需要2毫秒)： df = data.frame(col_a = sample(letters[1:3],20,T), a = sum(col_c == 'a'), c = a/b ) %>%

浏览 17提问于2019-06-03得票数 1

1回答

有没有一种通过列表理解来迭代两个数据帧的更快方法？

、、

我有两个数据帧，一个包含屏幕名称/显示名称，另一个包含个人，我正在尝试创建第三个数据帧，每次屏幕名称/显示名称中出现姓氏时，在新行中包含来自每个数据帧的所有数据。从功能上讲，这将创建一个可能匹配的名称列表。我当前的代码运行得很好，但运行速度非常慢，如下所示：# cols = 'userid','screen_name','real_nameReal_Name&#

浏览 0提问于2016-04-11得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

当行人使用任何逻辑进入时，如何在从PedSource设置一个速度后，在出口时改变行人的速度？

在pandas列中存储列表的最有效方法是什么？

如何在pandas中提高iterrows操作速度

用于多数据帧操作的Pandas矢量化

在Pandas中提高处理速度

如何使用python从GPS (经度和纬度)时间序列数据中提取速度和加速度特征？

将dask dataframe转换为dataframe太慢，使用它并行处理时不会节省时间。

从pypyodbc数据库查询返回单个字符串

数据丢失，在现有.xlsx文件中添加新工作表时，具有多个工作表的.xlsx文件的格式已更改

Pandas函数将多输入函数应用于数据帧中的每个单元格？

循环操作Pandas中数据的速度更快

xlsx中的getHighestColumn不工作

基于时间戳的时间序列值的Numpy (或scipy)入库

在Pandas中合并索引上的数据帧效率更高

pandas多个独立索引(非多个索引)

Pandas作为Flask应用程序的快速数据存储

oracle行锁的长队列时间

为什么group_by -> filter ->汇总在R中比pandas快？

有没有一种通过列表理解来迭代两个数据帧的更快方法？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐