Dask图的执行和内存使用

文章/答案/技术大牛

发布

0回答

、、

我正在dask中构建一个非常大的DAG，以提交给分布式调度器，在分布式调度器中，节点操作数据帧，而数据帧本身可能非常大。一种模式是，我有大约50-60个函数，用于加载数据和构造pandas数据帧，每个数据帧大小为几百MB (并且逻辑上表示单个表的分区)。我想将这些连接到图中下游节点的单个dask数据帧中，同时最小化数据移动。然而，我在这个concat_all函数上被杀死了(集群管理器正在杀死他们，因为超过了他们的内存预算)，尽管每个函数的</e

浏览 6提问于2017-06-07得票数 4

1回答

如何使用dask高效地(代码大小，scheduler+cluster运行时)聚合大量的小csv文件(大约50k文件，每个120kb)？

、、、、

我有一个数据集，其中包含每个文件的时间序列。我真的很高兴dask在我们的集群上处理大约1k个文件(在我的例子中是一个目录)。但我有大约50个目录。有趣的是，构建dask图似乎比实际问题消耗了更多的内存和CPU。这只在调度器上。我也一直在使用dask中的read_csv以及include_path_column=True和path作为组。我设法使上

浏览 10提问于2020-10-24得票数 1

1回答

dask read_parquet内存不足

我正在尝试读取一个很大的(内存不能容纳)镶木地板数据集，然后从中提取样本。数据集的每个分区都可以完美地存储在内存中。数据集在磁盘上大约有20 in的数据，分为104个分区，每个分区大约200Mb。我不想在任何时候使用超过40‘m的内存，所以我相应地设置了n_workers和memory_limit。我的假设是，Dask将加载它能处理的尽可能多的分区，从它们中采样

浏览 66提问于2019-09-25得票数 0

1回答

Dask分布式显然不会在任务完成时释放内存

、、、

我试图在一个分布式系统上执行一个自定义的dask图，问题是它似乎没有释放已完成任务的内存。我做错了什么吗？from dask import get 'conc

浏览 15提问于2019-07-08得票数 2

1回答

在fastAPI应用程序中通过python缓慢读取小zarr/S3数据

、、、、

) float32 dask.array<chunksize=(24,), meta=np.ndarray>ds['

浏览 10提问于2022-10-13得票数 0

1回答

Dask延迟与xarray -计算()结果仍然延迟。

、、

我尝试使用Dask和xarray对两个数据集执行一些分析(例如avg)，然后计算两个结果之间的差异。这是我的密码b = dask.delayed(calc_avg)(p2) total = dask.delayed(diff_)(a

浏览 14提问于2022-05-10得票数 1

1回答

Numpy，用迭代替换广播

、、、

., np.newaxis, :]据我所知，每个x表示N维空间中的点的数组，其中N是数组的最终维度的大小(因此，对于3维空间中的点，最终维度是3)。它插入额外的维度并使用广播来生成这些点集的笛卡尔乘积，从而计算所有点对之间的距离。, 1.41421356],(因此，正如预期的<

浏览 0提问于2015-11-18得票数 1

1回答

为什么Dask客户端说我的集群拥有比实际可用总量更多的核心和内存？

、

在使用Dask时，我试图了解Kubernetes吊舱与集群节点的核心和内存之间的关系。我目前的设置如下：然后，通过执行</em

浏览 0提问于2019-03-05得票数 1

1回答

我是否正确地调用了Dask* dataframe.corr()？*

、、、、

我试图计算Dask数据的相关矩阵。from dask.distributed import Client import dask.dataframe可

浏览 1提问于2021-04-04得票数 1

回答已采纳

0回答

通过dask使用函数和大的中间体来增加内存

、、、

我有一个关于dask.compute()的一般性问题，这个问题是由我在使用该函数时遇到的内存积累引起的。我使用dask.compute()和map_partitions() (已经尝试过使用dask.distributed和dask.multiprocessing (后者使用pool=ThreadPool和pool=multip

浏览 5提问于2018-07-19得票数 1

1回答

如何有效地将npy转换为xarray / zarr

、、、

我有一个37 GB的.npy文件，我想要转换到扎尔商店，以便我可以包括坐标标签。在理论上，我有这样做的代码，但我一直没有内存。我想在中间使用Dask来方便，但是我仍然内存不足。数据是人的股骨软骨的“厚度图”。每个映射都是一个310x310浮点数数组，其中有47789个。因此，数据形状为(47789,310,310)。

浏览 10提问于2022-06-17得票数 4

回答已采纳

1回答

如何在非DRMAA批处理调度环境中使用Dask？

我想使用dask-distributed，对于支持的算法和一般任务图执行都是如此。不幸的是，我们使用的批处理调度程序不支持DRMAA，所以我不能使用dask-drmaa。我们为所有主机提供了NFS。有没有办法开始使用Dask，或者我需要让批处理调度器支持DRMAA？

浏览 0提问于2017-03-13得票数 1

1回答

限制Dask* CPU和内存使用(单节点)*

、、、、

我在一台计算机上运行Dask，运行.compute()在一个巨大的拼图文件上执行计算将导致dask耗尽系统上的所有CPU核心。import dask as dd print(df.names.unique().compute()) 是否可以将dask配置为使用特定数量的CPU核心，并将其内存使用</e

浏览 45提问于2020-01-23得票数 5

回答已采纳

1回答

如何在输入列表中使用自定义DAG图(字典)？

、

现在，我想给它一个文件列表，但不重复DAG中的项目，如上面的链接所示。我知道delayed在：上的功能，但是我需要使用get来评估DAG，对吗？如果是这样，我如何与delayed或futures一起使用它？

浏览 0提问于2019-05-18得票数 0

回答已采纳

3回答

Dask DataFrame.to_parquet在读重分区写入操作中失败

、、、、

freeze and no files get written 选择新的分区，以便每个分区中文件的总内存不超过1000 MB。但是，最后的to_parquet调用将永远挂起。在dask仪表板上，没有任何活动。所有工作人员消耗的内存仍然非常小(55 it )，至少在仪表板中是这样；但是我怀疑它可能只是没有更新，因为一切都变得非常慢。运行代码的python进程不断增加内存消耗( Mac中的虚拟内存不断增

浏览 12提问于2022-03-15得票数 2

回答已采纳

1回答

BlazingSQL和dask之间的关系是什么？

、、、

我正在努力理解BlazingSQL是一个竞争对手还是dask的补充。我有一些中等大小的数据(10-50GB)保存在Azure blob的存储空间中。IIUC我可以使用BlazingSQL语法查询、连接、聚合和使用CuDF，但我也可以使用dask_cudf将数据读入CuDF，并使用python/dataframe语法执行所有相同的操作。在我看来，他们是直接的</e

浏览 1提问于2020-01-18得票数 3

回答已采纳

1回答

如何绘制巨大的dask数据框图，最好是全息图？

、、

如何绘制巨大的Dask数据框图？我需要绘制DASK数据帧，我需要： import holoviews as hvhv.extension('bokeh', 'matplotlibparquet', hv.BoxWhisker(data=d, datatype=['dask

浏览 14提问于2019-07-02得票数 0

1回答

选择子集后将其转换为pandas时，Dask* dataframe内存不足*

、、、、

所以我有一个包含160M记录和240列的拼图文件。因此，我使用dask在python中使用EMR CLuster m5.12xlarge加载它。Dask Name: concat, 489 tasks现在我正试着把它转换成pandas df。这只需要几秒的时间来执行，并使用大约1.5 GB的内存

浏览 1提问于2021-09-23得票数 0

1回答

熊猫的鳞片和串连成一只dask数据

、、、、

我有一只相当大的熊猫df。我也有一个熊猫系列的规模因素factors。下面是我想要实现的，但是使用熊猫的数据。实际情况下的dflarge将不适合内存。scaled) dflarge = pd.concat(d

浏览 0提问于2019-05-10得票数 1

1回答

使用从拼花文件创建的dataframe时内存使用量过高

、

当我尝试执行像dask_train_df.head()或dask_train_df.loc[2:4].compute()这样的简单操作时，我会得到内存错误，即使是使用17+ GB的内存。799999dtypes: int8(8712)而且我可以运行train.head()和train.loc1)因此，我的问

浏览 0提问于2018-12-24得票数 6

回答已采纳

点击加载更多