在Dask中使用尚未实现的Pandas函数_使用dask实现与基本pandas示例相同的单遍数据转换_使用apply函数在Dask中添加两列 - 腾讯云开发者社区

python、pandas、dask、dask-distributed、dask-delayed

我相信在使用Dask数据帧时，我在Dask教程中看到了一个关于如何使用Dask框架中尚未实现的Pandas函数的建议，但我似乎看错了地方。例如，我想使用Pandas函数'ewm‘。作为一种变通方法，我将Dask数据帧转换为Pandas数据帧，<em

浏览 10提问于2019-06-02得票数 1

回答已采纳

1回答

将PySpark groupby collect_set迁移到Dask

python、pandas、dask

我正在将一个pySpark实现迁移到Pandas。为了转换大型数据集，我使用了dask包。'DocumentId')) 到Pandas df.groupby("Key")[['ColumnA','ColumnB']].agg(set).reset_index() 然后，我将在单独的行重命名该列上面在Dask中的代码给出了错误ValueEr

浏览 31提问于2021-08-16得票数 0

1回答

如何在Dask中进行groupby过滤

dask

我正在尝试获取一个dask数据帧，按列'A‘分组，并删除行数少于MIN_SAMPLE_COUNT的组。例如，下面的代码可以在pandas中运行： import pandas as pdimport dask MIN_SA

浏览 15提问于2019-03-22得票数 2

回答已采纳

0回答

我正在dask中构建一个非常大的DAG，以提交给分布式调度器，在分布式调度器中，节点操作数据帧，而数据帧本身可能非常大。一种模式是，我有大约50-60个函数，用于加载数据和构造pandas数据帧，每个数据帧大小为几百MB (并且逻辑上表示单个表的分区)。我想将这些连接到图中下游节点的单个dask数据帧中，同时最小化数据移动。(df).to_delayed() 我尝试过各种concat_all

浏览 6提问于2017-06-07得票数 4

0回答

循环中的DASK* Dataframe*

dataframe、dask

我在尝试在Dask中实现循环时遇到了一些问题。i]].std().compute()==0:df = df.drop(cols_constant,axis=1) 使用pandas时，同样的代码非常快，但在dask上，完成任务需要相当长的时间。我知道Dask在循环方面效率很低。但是，我如何才能优化我的

浏览 5提问于2017-06-08得票数 1

1回答

从字典创建dask数据帧

pandas、dask

我有一本这样的字典： d = {'Caps': 'cap_list', 'Term': 'unique_tokens', 'LocalFreq': 'local_freq_list','CorpusFreq': 'corpus_freq_list'} 我想从它创建一个dask数据帧。通常，在Pandas中，可以通过以下方式轻松地将is导入P

浏览 28提问于2019-12-17得票数 3

1回答

使用Dask映射分区时，解压函数内部的元组

python、pandas、dask

我尝试在Dask数据帧的多个分区上运行一个函数。该代码需要解压元组，并且可以很好地与Pandas一起工作，但不能与Dask map_partitions一起工作。数据对应于元组列表，其中列表的长度可以变化，但元组始终具有已知的固定长度。to Dask # Run function over Pandas datafra

浏览 27提问于2021-02-24得票数 1

回答已采纳

1回答

在Pandas和Dask中将属性附加到dataset

python、pandas、github、repository、dask

我也有一些自定义的类和函数，我使用了很多不同的分析，我总是需要编辑，以解释Dask或Pandas。我始终发现自己处于这样一种情况:我希望能够将属性分配给我正在分析的dataset，最小化来自dask的compute命令，并允许在数据类型之间切换时更容易地管理函数。有效地类似于：import dask.dataframe as dd from

浏览 0提问于2020-12-05得票数 1

回答已采纳

1回答

DASK的RAM问题及其from_pandas函数

python、pandas、ram、dask

我试图使用Python3.4中的DASK包来避免大型数据集出现RAM问题，但我注意到了一个问题。使用本机函数"read_csv“，我使用不足150 of的RAM将大数据集加载到dataframe中。相同的数据集读取与熊猫DB连接(使用限制和偏移选项)和达克函数“from_pandas”填充我的公羊到500/750 MB。我无

浏览 4提问于2016-07-04得票数 1

回答已采纳

1回答

如何在dask分布式集群中使用dask_ml预处理

dask、dask-distributed、dask-delayed、dask-dataframe、dask-ml

如何在dask分布式集群中进行dask_ml预处理？我的数据集大约是200‘s，每次我对准备用于OneHotEncoding的数据集进行分类时，似乎dask忽略了客户端，并尝试将数据集加载到本地计算机的内存中。也许我错过了一些东西： from sklearn.linear_model importLogisticRegression

浏览 10提问于2021-07-09得票数 0

1回答

KeyError:当尝试选择dask数据框上的列时：“没有[索引([‘’，'']，dtype='object')]在[列]中”

pandas、dask

我正在使用from_pandas()函数从熊猫数据帧创建一个dask数据帧。当我尝试使用方括号[ ]从dask dataframe中选择两列时，我得到了一个KeyError。根据dask文档，dask dataframe支持像pandas dataframe一样的方括号列选择。# data is a pandas dataframe dask_df = ddf.from_p

浏览 67提问于2019-10-04得票数 1

1回答

如何按Dask列出正在运行的进程？

python、dask

我开始使用dask了。就我自己(以及我想向其演示dask的同事)的理解而言，我想构造一个基本的数据帧，执行一个基本的操作，并将执行时间与仅限pandas的实现进行比较。这是我非常简单的尝试：import dask.multiprocessingimport <em

浏览 2提问于2018-06-05得票数 0

2回答

Dask DataFrame的逐行处理

python、pandas、dask

我想做这样的事情： lol = doOtherStuffWith我的行数相当大，我需要处理大量的列。因此，如果我执行一个dataFrame.apply(.)，恐怕dask可能会多次读取该文件。对于每一列。其他的解决方案是手动地将我的数据分解成块，或者使用熊猫，或者只是在数据库中抛出任何东

浏览 5提问于2017-03-17得票数 5

1回答

通过读取Python的dask模块中的pickle文件来创建dask数据帧

python、dask

当我尝试通过读取pickle文件来创建dask数据帧时，我得到了一个错误ds_df = dd.read_pickle("D:\test.pickle) 在大熊猫身上所以，如果我在这里或者在dask中

浏览 1提问于2015-12-14得票数 7

1回答

从dask* dataframe提供程序收集属性*

python、pandas、dask

TL;DR：我如何从分布式读取中收集元数据(解析期间的错误)到dataframe集合中。目前，我有一种专用的文件格式，用于输入dask.DataFrame。我有一个函数，它接受一个文件路径并返回一个pandas.DataFrame，dask.DataFrame成功地在内部使用该函数将多个文件加载到同一个dask.DataFrame。直到最近，我还在使用自己的代码

浏览 7提问于2016-01-26得票数 2

回答已采纳

1回答

Dask中延迟函数与正常函数的区别

python、dask

我创建了一个Aggregation对象来模拟pandas的first操作，它可以很好地处理dask dataframe，但是在延迟函数中使用时，它会给出一个pandas错误'Aggregation' objectis not callable，而在本例中，只使用pandas就可以了。在后来的检查中，我发现在添加@delayed装饰器时，我的接收

浏览 5提问于2017-12-19得票数 2

回答已采纳

1回答

提高运行大文件的性能

python、pandas、memory、chunked-encoding

我知道有一些关于这个主题的问题，但我似乎不能有效地进行。我的机器上运行着包含8GB of memory的大型输入数据集(2-3 GB)。我使用的是安装了pandas 0.24.0的spyder版本。输入文件目前大约需要一个小时才能生成一个10MB左右的输出文件。此后，我尝试通过使用以下代码对输入文件进行分块来优化该过程。本质上，我将输入文件chunk成较小的片段，通过一些代码运行它，然后导出较小的

浏览 13提问于2020-05-18得票数 3

2回答

移动dataframe中的所有行

python、numpy、pandas、dask

在Pandas中，有一个方法DataFrame.shift(n)将数组的内容相对于索引移动n行，类似于np.roll(a，n)。我似乎找不到办法让达斯克有类似的行为。我意识到，像行轮班这样的事情可能很难用达斯克的分块系统来管理，但我不知道有什么更好的方法来将每一行与下一排进行比较。我想要做的是：import pandas as pd import dask.DataFrame

浏览 6提问于2015-12-11得票数 6

回答已采纳

3回答

XArray沿时间维应用函数

dask、python-xarray

我将图像堆栈存储在具有维度时间、x、y的XArray DataArray中，我希望在其上沿每个像素的时间轴应用自定义函数，以便输出为维x，y的单个图像。我尝试过: apply_ufunc，但是函数失败了，说明我需要首先将数据加载到RAM中(即不能使用Dask )。理想情况下，我希望在内部将DataArray保持为Dask数组，因为不可能将整个堆栈加载到RAM中。确切的</e

浏览 0提问于2019-08-19得票数 4

回答已采纳

1回答

Dask DataFrame能和大熊猫DataFrames一起工作吗？

python、pandas、dask

我想使用Dask来处理大型数据帧。然而，当我尝试使用它时，我得到了一个内存错误，如下所示。df = pandas.DataFrame({'x': my_very_large_array}) ddf = dask.dataframe.from_pandas(df, npartitions=100) 我认为Dask应该处理比内存更大的数据。

浏览 7提问于2019-03-06得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云