在Pandas中使用set_index比在Dask中转换更好，还是相反？

文章/答案/技术大牛

发布

1回答

、

Dask文档指出，Dask的set_index比熊猫的(http://docs.dask.org/en/latest/dataframe-api.html#dask.dataframe.DataFrame.set_index任务中的set_index： df['time_index'] = df['time'] df = dd.fr

浏览 23提问于2019-06-06得票数 1

回答已采纳

1回答

尝试在set_index上使用dask.dataframe时的意外参数

、、

首先，它不承认set_index()中的“除法”论点：Cell In [12], line 5 310 ) --> 311 return func(*args, **kwargs)

浏览 9提问于2022-09-21得票数 0

1回答

为什么达斯克的"to_sql“比熊猫花了更多的时间？

、、、、

我在ETL中使用dask而不是pandas，即从S3存储桶中读取CSV，然后进行一些所需的转换。Until here - dask读取和应用转换的速度比pandas快！最后，我使用to_sql将转换后的数据转储到Redshift。在dask中这个to_sql转储比在pandas</em

浏览 2提问于2021-09-27得票数 1

1回答

如何在Dask中使用sort_index、groupby和应用函数？

、、、

我有一个应用于熊猫数据文件的功能，我正在考虑使用dask来提高性能。['col1', 'col2', 'col3'], myfunction我正在尝试将其转换为() df, ).reset_index().set_index()

浏览 1提问于2018-12-13得票数 1

回答已采纳

1回答

在Dask中使用尚未实现的Pandas函数

、、、、

我相信在使用Dask数据帧时，我在Dask教程中看到了一个关于如何使用Dask框架中尚未实现的Pandas函数的建议，但我似乎看错了地方。例如，我想使用Pandas函数'ewm‘。作为一种变通方法，我将Dask数据帧转换为Pandas数据帧，在Pandas数据帧上运行ewm，然后将它们转换</

浏览 10提问于2019-06-02得票数 1

回答已采纳

1回答

用熊猫/达克重拾许多时刻表文件

、、

import dask.dataframe as dd "..在调用dd.reset_index().set_index("timestamp")之后，它可以工作--，但是，我不能这样做，因为它很昂贵。(2)使用pandas hdf 和hdf解决方案另一种方法是使用熊猫将所有csv文件保存到hdf文件中。在这种情况下，熊猫的数据已经按时

浏览 8提问于2022-02-11得票数 0

2回答

Dask DataFrame的逐行处理

、、

，恐怕dask可能会多次读取该文件。对于每一列。谢谢你的帮助。

浏览 5提问于2017-03-17得票数 5

1回答

选择子集后将其转换为pandas时，Dask* dataframe内存不足*

、、、、

因此，我使用dask在python中使用EMR CLuster m5.12xlarge加载它。Dask Name: concat, 489 tasks现在我正试着把它转换成pandas df。这只需要几秒的时间来执行，并使用大约1.5 GB的内存。a_count = a_count.compute() 现在，在其中一列中，我希望所有记录的值都为null，然后执行与前

浏览 1提问于2021-09-23得票数 0

1回答

将熊猫数据转换为dask

、、、

在下面的代码中，我有一个pandas数据文件，它被转换成dask数据格式。问题是:在创建dask数据时，进程会复制数据吗?还是dask会在不复制数据的情况下围绕pandas创建一个包装器？import pandas IDs = [1,2,3 ......]pandasDataFrame = pandas</e

浏览 3提问于2021-03-01得票数 1

回答已采纳

1回答

dask / pandas分类转换差异

、、、

我管理的csv文件比内存大，大部分是分类数据。最初，我会创建一个很大的csv文件，然后通过Pandas read_csv读取它，转换为分类文件并保存为hdf5。一旦进入分类格式，它就会很好地存储在内存中。文件越来越多，我搬到了Dask。不过，过程是一样的。但是，在空白字段中，cat.categories似乎使用np.nan，并且该类别不包括在Pandas清单中。有了Dask，空值

浏览 0提问于2016-10-10得票数 1

2回答

我非常熟悉熊猫的数据格式，但是我对Dask非常陌生，所以我仍然试图把我的代码并行化。我已经用熊猫和熊猫获得了我想要的结果，所以我想弄清楚的是，我是否可以扩大任务的规模，或者用达斯克来加速它。在我的例子中，有时索引值并不是唯一的，所以作为一个平手，我想使用id列。具有最大id数的值将被视为最新值。对于在2021-01-01 23:59:59.288914时绑定的三个值，将选择值29.82，因为该日期的最大id将是512667。还要注意，id在整个数据集中并不一致，我不能只依靠它来排序我的数

浏览 2提问于2021-12-16得票数 3

回答已采纳

3回答

`set_index`可以将一个索引放入多个分区吗？

、、、

从经验上看，每当您在dataframe上使用set_index时，Dask总是会将具有相同索引的行放入单个分区中，即使它会导致严重不平衡的分区。下面是一个演示：import dask.dataframe as dd ddf = dd.from_pandas(df

浏览 1提问于2021-10-14得票数 6

回答已采纳

1回答

将dask* dataframe转换为dataframe太慢，使用它并行处理时不会节省时间。*

、

import pandas as pd import dask.dataframe as dd import timewarnings.simplefilter=1)d_data = dd.from_pandasis {} sec'.format(time.time()-start))结果是：花

浏览 0提问于2018-09-29得票数 0

回答已采纳

1回答

从dask* dataframe提供程序收集属性*

、、

TL;DR：我如何从分布式读取中收集元数据(解析期间的错误)到dataframe集合中。目前，我有一种专用的文件格式，用于输入dask.DataFrame。我有一个函数，它接受一个文件路径并返回一个pandas.DataFrame，dask.DataFrame成功地在内部使用该函数将多个文件加载到同一个dask.DataFrame。直到最近，我还在使用自己的代码将几个pandas.DataFrames合并为一个，现在我正在使

浏览 7提问于2016-01-26得票数 2

回答已采纳

3回答

将Pandas* DataFrames中的Dask包转换为单个Dask DataFrame*

、、、

我想让所有这些单一的熊猫DataFrames在一个大达克DataFrame。下面是一些CSV数据示例(我的数据实际上并不在CSV中，但在这里使用它是为了方便示例)。要创建一个最低限度的工作示例，可以将其保存为CSV并复制几个副本，然后使用下面的代码我到目前为止尝试过的 i

浏览 10提问于2019-12-13得票数 3

回答已采纳

1回答

熊猫的鳞片和串连成一只dask数据

、、、、

我希望对df中的每个缩放因子进行缩放，并将这些数据合并到一个更大的数据帧中。由于这个大型数据文件将不适合内存，所以我认为同样地使用dataframe可能会更好。但我不知道如何解决这个问题。下面是我想要实现的，但是使用熊猫的数据。实际情况下的dflarge将不适合内存。import random 'id1': range(1,6), 'a

浏览 0提问于2019-05-10得票数 1

3回答

dask DataFrame等同于pandas DataFrame sort_values

、、、

对于dask DataFrame来说，熊猫中的sort_values相当于什么？我正在尝试扩展一些有内存问题的熊猫代码，转而使用dask DataFrame。

浏览 2提问于2016-11-02得票数 10

1回答

用dask等价物加快“中间”函数的速度

、、、

我试图想出一种快速的方法，在dataframe中添加一个新列，其中所添加的值是基于条件的。有人向我推荐了一种使用numpy的方法，但它相对来说非常慢。我想知道是否有一种与dask相对应的方法，或者是否可以更好地构造numpy查询以提高性能。import dask.dataframe as ddimport dask.threadedim

浏览 2提问于2019-10-06得票数 0

1回答

什么是最快的方式循环通过排序的达克数据？

、、

我是Pandas和Dask的新手，dataframes包着熊猫的数据文件，并共享大多数相同的函数调用。但是它运行得很慢(大约需要8个小时)，有更快的方法吗？我之所以使用dask，是因为它可以对非常大的

浏览 3提问于2020-01-31得票数 0

回答已采纳

1回答

合并两个大型数据帧

、、、

-26 我需要合并它们： case = pd.merge(limdata, df_case, left_on='sacc_id$',right_on='sacc_id$') 但我遇到了一个内存问题： pandas/_libs/join.pyx in pandas.我在这里的一些讨论中看到Dask可以提供帮助，但我不知道如何在这种情况下使用它。有什么需要帮忙的吗？谢谢

浏览 16提问于2019-01-31得票数 0

点击加载更多