使用虚拟编码器时dask中的内存错误

文章/答案/技术大牛

发布

1回答

、

我正在对一个dask数据帧train_final[categorical_var]进行虚拟编码。然而，当我运行代码时，我得到了一个内存错误。这会发生吗，因为dask应该是通过逐块加载数据来实现的。代码如下： from dask_ml.preprocessing import DummyEncodertrain_final_cat = de.fit_transform(train_final[categorica

浏览 17提问于2019-02-25得票数 4

回答已采纳

5回答

默认pip安装Dask提供"ImportError:无模块名为toolz“

、、、、

我使用这样的pip安装了：当我尝试执行import dask.dataframe as dd时，我会得到以下错误消息： File "<stdin>", line 1, in <module> File "/path/to/venv/lib&#x

浏览 9提问于2017-01-03得票数 22

回答已采纳

1回答

了解dask cudf对象生命周期

、、、

我想了解Dask对象的有效内存管理过程。我已经设置了一个Dask GPU集群，并且我能够执行跨该集群运行的任务。然而，使用dask对象，特别是当我运行计算函数时，在GPU上运行的进程会随着使用越来越多的内存而快速增长，很快我就会收到“内存不足错误”。我想知道如何在使用完dask对象后释放它们。在下面的示例<e

浏览 16提问于2021-05-06得票数 1

1回答

使用从拼花文件创建的dataframe时内存使用量过高

、

当我尝试执行像dask_train_df.head()或dask_train_df.loc[2:4].compute()这样的简单操作时，我会得到内存错误，即使是使用17+ GB的内存。1)因此，我的问题是，为什么这些简单的操作会使用Dask Dataframe来破坏内存的使用，但是当我使用P

浏览 0提问于2018-12-24得票数 6

回答已采纳

1回答

Dask DataFrame能和大熊猫DataFrames一起工作吗？

、、

我想使用Dask来处理大型数据帧。然而，当我尝试使用它时，我得到了一个内存错误，如下所示。df = pandas.DataFrame({'x': my_very_large_array}) ddf = dask.dataframe.from_pandas(df, npartitions=100) 我认为Dask应该处理比内存更大的数据。

浏览 7提问于2019-03-06得票数 0

回答已采纳

1回答

如何使用xarray open_mfdataset和分位函数降低内存使用量

、

我试图在nc文件中加载多年的每日数据(每年一个nc文件)。单个nc文件的维度为365 (天)* 720 (lat) * 1440 (lon)。所有nc文件都在"data“文件夹中。我的问题来自内存的使用。我认为，通过执行open_mfdataset方法(它在引擎盖下使用Dask )，这将得到解决。然而，加载“仅仅”2年的nc文件使用大约8GB的虚拟RAM

浏览 10提问于2022-08-30得票数 0

1回答

Read_json()任务是并行的吗？

、、

使用dask distributed读取100个json文件：(Workers:5核:5内存: 50.00 GB) from dask.distributed import Client df = dd.read_json('gs://xxxxxx/2018-04-18/data-*.json

浏览 8提问于2019-04-16得票数 2

1回答

Dask DummyEncoder没有返回所有列

、、、

我尝试使用dask 来OneHotEncoding我的数据。但结果并不像预期的那样。达斯克的DummyEncoder示例：import pandas as pd data = pd.DataFrame之所以要这样做，是因为我将编码列的子集，然后将得到的encoded_df连接到主df，同时从主df中删除主列。内部使用熊猫

浏览 0提问于2018-08-15得票数 3

回答已采纳

1回答

在Dask.distributed中使用client.scatter(df)时异常

、

我正在使用稳定/ Dask存储库中的Helm Chart在Kubernetes上使用dask。当使用分布式客户端并调用client.scatter(ddf)时，我得到一个异常，如下所示：异常:没有名为“pandas.core.inders.manager”的模块；“pandas.core.internals”不是包在Python3.7上，查看已安装的包显示Pandas==0.24.1 & <em

浏览 18提问于2019-02-22得票数 0

回答已采纳

2回答

Dask和numpy -在numpy数组和dask数组之间的缓慢转换

、、、

我需要从一个大的numpy数组中保存一个dask数组。下面是一个最小的工作示例，展示了该过程。请注意，a是使用numpy.random创建的，但不幸的是，我不能使用dask创建数组。= da.from_array( a, chunks = 100000)client.close() 我面临的问题是，内存<

浏览 22提问于2020-02-20得票数 0

回答已采纳

3回答

Dask DataFrame.to_parquet在读重分区写入操作中失败

、、、、

freeze and no files get written 选择新的分区，以便每个分区中文件的总内存不超过1000 MB。但是，最后的to_parquet调用将永远挂起。在dask仪表板上，没有任何活动。所有工作人员消耗的内存仍然非常小(55 it )，至少在仪表板中是这样；但是我怀疑它可能只是没有更新，因为一切都变得非常慢。运行代码的python进程不断增加内存消耗( Mac中的</e

浏览 12提问于2022-03-15得票数 2

回答已采纳

1回答

使用多进程调度程序将Dask阵列并行写入HDF5失败

、、

Dask是一个文档良好的可伸缩库，用于并行处理，使用基于图形的工作流在编写许多具有固有并行性的应用程序时非常有用。然而，当并行写入hdf5文件时，这是相当困难的，特别是在使用多进程调度器时。x)dask.set_options(get=dask.multiprocessing.get)TypeError: can't pickle<e

浏览 11提问于2017-03-01得票数 2

1回答

使用dask将CSV文件转换为拼板(jupyter内核崩溃)

、、、、

我正在尝试转换一个有点大的CSV文件为拼花格式使用jupyter笔记本。然而，当尝试转换笔记本时，笔记本会重新启动。由于dask增加了内存大小，并加载了内存中的数据块，因此在执行大于内存数据集时不应发生此错误。(内核崩溃背后的原因是内存超载)。我在达斯克的一台机器上运行这个内核。import

浏览 0提问于2019-03-05得票数 2

回答已采纳

1回答

计算具有共同依赖关系的两个值时，Dask高内存使用率

、、、

我在一台机器上使用Dask (LocalCluster有4个进程，16个线程，68.56 to内存)，当我试图一次计算两个共享依赖关系的结果时，遇到了工作内存问题。在下面显示的示例中，仅用一次计算就可以很好地快速计算result，工作人员的总内存使用量最高可达1 1GB左右。但是，当使用两次计算来计算results时，当总内存使用</em

浏览 18提问于2021-02-27得票数 2

回答已采纳

1回答

Python任务模块错误..AttributeError：'_io.TextIOWrapper‘对象没有'startswith’属性

、

我正在尝试学习如何使用dask模块来克服脚本中的内存问题。当我读取csv并从它创建dask数据帧时，我得到了以下错误： File "C:\Users\username\AppData\Local\Programs\Python\Python39\lib\site-packagespath.startswith("file://"): AttributeError: '_io.TextIO

浏览 271提问于2021-02-02得票数 0

1回答

用于numpy数组的free()的Python等价物？

、、、

我有许多需要存储为dask数组的大型numpy数组。在尝试从.npy加载每个数组，然后将其转换为dask.array时，我注意到内存使用率几乎与常规numpy数组一样多，即使在将arr加载到dask.array之后执行del arr之后也是如此。在此示例中：print(f'Array ref count before conversion: {sys.getrefcoun

浏览 2提问于2021-07-23得票数 0

1回答

在使用Dask-ML时，如果内存使用量不断超出，该怎么办？

、、、、

我正在使用Dask-ML来运行一些代码，这些代码在训练过程中使用了相当多的RAM内存。训练数据集本身并不大，但它是在训练期间使用相当多的RAM内存。即使我尝试对n_jobs使用不同的值，我仍然收到以下错误消息 distributed.nanny - WARNING - Worker exceeded 95% memory budget.Ps:我也试过使用Kaggle内核(它允许高达

浏览 21提问于2020-05-28得票数 0

1回答

管理dask本地集群上的工作人员内存

、、

我试图用dask加载数据集，但是当计算数据集的时候，我总是遇到这样的问题：现在，在我的错误消息中，我一直看到对'memory_limit=‘关键字参数的引用。但是，我已经彻底地搜索了dask文档，并且我不知道如何在单机配置中增加工作人员的血腥内存限制。我有256 in的</e

浏览 4提问于2018-12-26得票数 19

1回答

木星中的Array.compute()峰值存储器

、、、、

我正在使用dask开发一个分布式集群，当将结果返回到本地进程时，我注意到了峰值内存消耗。在计算过程中，达斯克是否有任何副本？或者木星实验室需要复制？import dask.array import dask</e

浏览 2提问于2022-03-04得票数 1

回答已采纳

1回答

Dask-快速数据移动和内存不足问题

、、、

我在我的项目中使用了dask (2021.3.0)和rapids(0.18)。在这个过程中，我在CPU上执行预处理任务，然后将预处理后的数据传输到GPU进行K均值聚类。但在这个过程中，我遇到了以下问题： 1个工作任务中的1个失败: std::bad_alloc: CUDA错误: GPU内存不足(在完全使用~/envs/include/rmm/mr/d

浏览 9提问于2021-03-19得票数 0

点击加载更多