如何在dask数据帧中使用等级值进行索引？

、、、

通过对数据集的初始值执行过滤步骤，我得到了一个大得多的数据集的索引的子集，其形式如下 indices = pandas_DataFrame_of_initial_values[my_subset].index.get_level_values(0) 这些索引的形式如下 Int64Index([...], dtype='int64', name='id', length=N) 因此，我喜欢使用索引来使用Da

浏览 15提问于2020-12-23得票数 0

回答已采纳

1回答

什么等同于用于dask数据帧的iloc？

、

在这种情况下，我需要按位置对dask数据帧进行索引。我看到没有可用的.iloc方法。有没有别的选择？或者我需要使用基于标签的索引吗？例如，我想import numpy as npdf = dd.from_pandas(pd.DataFrame({k:np.random.random(10) for k in ['a', 'b

浏览 2提问于2017-10-16得票数 6

2回答

索引到Dask系列可以返回Dask系列

、、

我有Dask系列的Dask数据帧。但是，使用loc[0]会导致另一个dask系列。使用to_frame也不起作用，因为结果是"Dask系列Dask数据帧的Dask数据帧</e

浏览 3提问于2020-02-03得票数 1

1回答

如何使用python记录链接工具包对大数据集执行重复数据删除？

、、、

我目前正在使用Python Record Linkage Toolkit对工作中的数据集执行重复数据消除。在理想的情况下，我只需要使用阻塞或排序邻域来减少记录对索引的大小，但有时我需要对包含超过75k条记录的数据集进行完整索引，这会导致数十亿条记录对。，但不提供任何在单个数据帧内进行重复数据删除的功能。有没有一种方法可以拆分数据

浏览 26提问于2021-10-11得票数 0

1回答

将文件夹中的许多羽化文件加载到dask中

、、、

有了一个包含许多.feather文件的文件夹，我想将它们全部加载到python中的dask中。到目前为止，我已经尝试了以下来自GitHub https://github.com/dask/dask/issues/1277上类似问题的答案 files = [...] dfs = [dask.delayed是否可以在dask中执行上述操作？

浏览 19提问于2019-08-08得票数 2

回答已采纳

1回答

如何在Python Dask数据帧中执行位置索引

、、、

我一直在使用Dask Concurrent.futures ，但我在使用(过时的) 时遇到了一些问题。具体地说，使用位置索引将dask数据帧分成测试/训练拆分：test = dfs[-1]train = dfs.loc[:-1]在Dask</em

浏览 13提问于2018-02-14得票数 4

1回答

使用函数dask.dataframe.read_sql_table将多个列名作为输入传递给参数index_col以创建dask数据帧

、、

这样我就得到了ValueError import dask as dd data1 = dd.read_sql_table('TABLE', connection_string, index_colgives me a value error --> ValueError: Use label when passing an SQLAlchemy instance as the index 当我只使用如下所示的date时，我就能够将数据拉入dask dataframe。

浏览 21提问于2020-06-15得票数 1

0回答

Dask图的执行和内存使用

、、

我正在dask中构建一个非常大的DAG，以提交给分布式调度器，在分布式调度器中，节点操作数据帧，而数据帧本身可能非常大。一种模式是，我有大约50-60个函数，用于加载数据和构造pandas数据帧，每个数据帧大小为几百MB (并且逻辑上表示单个表的分区)。我想将这些连接到图中下游节点的单个dask数据帧中，同时最

浏览 6提问于2017-06-07得票数 4

2回答

向dask.dataframe添加dask.array列

、、

我有一个dask数据帧和一个dask数组，它们以相同的逻辑顺序具有相同的行数。数据帧行通过字符串进行索引。我正在尝试将一个数组列添加到数据帧中。我尝试了几种方法，但都以其特定的方式失败了。当结构在逻辑上兼容时，将dask数组列添加到dask数据帧的正确方法是什么？

浏览 15提问于2018-01-09得票数 8

1回答

还原预计算索引

1.5 TB的数据存储在csv文件中。我已经用dask加载了它，并用.set_index(sorted=True)计算了索引。手术耗时9小时。现在我的数据帧已经有了一些合理的值填充的分区。是否可以将计算的索引存储在单独的文件中，以便我下次读取这些相同的csv文件时可以可靠地恢复它？我正在使用dask 0.18.2。到目前为止，我已经尝试将.divisions和.npartitions的值</

浏览 2提问于2018-08-08得票数 0

1回答

在任务数据帧中使用map_partitions获取目录名

、、、

我正在寻找一些关于dask数据帧结果的帮助。我有一个dask数据帧，其中包含来自144个csv文件的144个数据帧。我想从这些数据帧中的一列中获取最大值并返回它，以及它所属的文件夹的名称。我一直在使用map_patitions来获得我正在寻找的结果，但是，没有与分区结果相关联的标识符，所以很难将结果应用于其他用途。任何帮助都将不胜感激！下面是我<

浏览 23提问于2020-03-21得票数 1

2回答

一种简单的dask分布式数据帧逆向处理方法

、

我尝试使用[::-1]颠倒dask数据帧的顺序，但得到了一个只能使用iloc索引的NotImplementedError，比如[:, ['foo']] e.g tmp=pd.DataFrame(dict(a=[0,1,1,1,0,1,0,1], b=[0,0,0,0,1,0,0,1]))tmp[::-1] 如何在不将整个数据帧加载到内存

浏览 18提问于2019-04-02得票数 2

回答已采纳

1回答

在Dask中使用尚未实现的Pandas函数

、、、、

我相信在使用Dask数据帧时，我在Dask教程中看到了一个关于如何使用Dask框架中尚未实现的Pandas函数的建议，但我似乎看错了地方。例如，我想使用Pandas函数'ewm‘。作为一种变通方法，我将Dask数据帧转换为Pandas数据帧，在Pandas数据帧上运行ewm，然后将它们转换回D

浏览 10提问于2019-06-02得票数 1

回答已采纳

1回答

Dask groupby-在索引上应用，然后连接，而不会进行昂贵的重新索引

、、

我在Dask的情况下，我想摆脱，而不是使用很多昂贵的reset_index操作。我有一个任务，它执行groupby-apply (其中apply返回一个数据帧，它的大小与输入数据帧不同，在本例中，这是由.head()和.tail()用reset_index()模拟的)。我原本期望数据帧只在dask索引上连接，由于dask没有实现多索引，我惊讶地看到它同时连接到<e

浏览 0提问于2021-04-08得票数 1

1回答

如何为所有工作进程和分区预缓存dask.dataframe以减少通信需求

、、、、

有时，使用dask.dataframe.map_partitions进行合并之类的操作很有吸引力。在某些情况下，当使用map_partitions在left_df和right_df之间进行合并时，我希望在执行合并之前先预缓存right_df，以减少网络开销/本地混洗。感觉应该可以使用client.scatter(the_df)、client.run(func_to_cache_the_df)或其他智能广播中的一种或两者的组合。在使用小得多的r

浏览 0提问于2019-07-30得票数 2

1回答

在dask中搜索行后获取列值

、、

我有一个熊猫数据帧，我使用dask的from_pandas函数将其转换为dask数据帧。它有3列，即col1、col2和col3。现在，我使用daskdf[(daskdf.col1 == v1) & (daskdf.col2 == v2)]搜索特定的行，其中v1和v2是我要搜索的值。但是，当我尝试使用daskdf[(daskdf.col1 == v1) & (daskdf.col2 == v2)][&

浏览 8提问于2021-04-13得票数 3

回答已采纳

1回答

计算整个任务数据帧的方差

、、

我有一个这样的dask数据帧： 1980-04-02 1980-04-03 1980-04-04 1980-04-050.708841 5.247479 10.690757在pandas中，为了计算整个数据帧的方差，我将使用堆栈函数，如下所示(我只<e

浏览 11提问于2020-05-05得票数 2

1回答

存储在dataframe中的计算dask延迟对象

、、、

我正在寻找最好的方法来计算存储在数据帧中的许多dask delayed指令。我不确定是否应该将pandas数据帧转换为包含delayed对象的dask数据帧，或者是否应该对pandas数据帧的所有值调用compute调用。compute，比如：enr_df.applymap(compute) (我相信它会对每个值分别调用compute )。但是，如果我将其转换为<

浏览 10提问于2019-08-10得票数 0

1回答

在单个列上执行操作时，dask是否加载所有列？

每当我使用dask数据帧进行计算时，我都会确保只加载必要的列，以便能够节省计算速度。我只是不明白dask是如何在内部工作的，为什么他不能从拼花柱状格式中受益。在下面的小示例中，test.parquet是一个包含13列各种数据类型、10M行和16个分区的拼图文件。正如您所看到的，如果我只对单个列的最小值感兴趣，那么当我只加载目标列时，速度会有非常明显的提高。在使用分布式调度器时，我

浏览 1提问于2019-03-14得票数 2

2回答

移动dataframe中的所有行

、、、

在Pandas中，有一个方法DataFrame.shift(n)将数组的内容相对于索引移动n行，类似于np.roll(a，n)。我似乎找不到办法让达斯克有类似的行为。我意识到，像行轮班这样的事情可能很难用达斯克的分块系统来管理，但我不知道有什么更好的方法来将每一行与下一排进行比较。我想要做的是：import pandas as pd with pd.HDFStore(path) as= shifted.apply(np.sig

浏览 6提问于2015-12-11得票数 6

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

什么等同于用于dask数据帧的iloc？

索引到Dask系列可以返回Dask系列

如何使用python记录链接工具包对大数据集执行重复数据删除？

将文件夹中的许多羽化文件加载到dask中

如何在Python Dask数据帧中执行位置索引

使用函数dask.dataframe.read_sql_table将多个列名作为输入传递给参数index_col以创建dask数据帧

Dask图的执行和内存使用

向dask.dataframe添加dask.array列

还原预计算索引

在任务数据帧中使用map_partitions获取目录名

一种简单的dask分布式数据帧逆向处理方法

在Dask中使用尚未实现的Pandas函数

Dask groupby-在索引上应用，然后连接，而不会进行昂贵的重新索引

如何为所有工作进程和分区预缓存dask.dataframe以减少通信需求

在dask中搜索行后获取列值

计算整个任务数据帧的方差

存储在dataframe中的计算dask延迟对象

在单个列上执行操作时，dask是否加载所有列？

移动dataframe中的所有行

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐