内存中压缩的持久化Dask数组

文章/答案/技术大牛

发布

1回答

、、、

假设我有一个类，它以压缩的方式存储一个numpy数组，但也支持索引： def __init__(self, numpy_array): "..有没有一种合理的(非hacky的)方法让它与持久性很好地协同工作？我希望能够定义一个大的(但可压缩的)数组x，然后获得x.persist()的等价物，但是内存中</

浏览 9提问于2017-08-24得票数 0

1回答

优化散射

、

for i in range(Y.shape[0])] 我可以拆分Y (这很好，因为我没有足够的内存一次加载它)，但是我的所有工作人员都需要我有足够的内存来处理它。但是我找不到任何方法来允许短内存尖峰(在反序列化过程中发生)，所以如果我设置了内存限制，保姆就会杀死我所有的工作人员。然后我所有的新员工。以此类推。所以我有三个问题：是否有一种方法可以设置允许在

浏览 2提问于2019-03-07得票数 2

回答已采纳

2回答

我正在运行一个机器学习管道，用于分割非常大的3D图像。我想将结果(dask数组)存储为.png文件，每个文件对应于dask数组的一个片段。你对如何实现这一点有什么建议吗？我一直在尝试通过使用joblib dask并行后端构建一个并行for循环来保存结果，然后逐个切片地循环结果。这可以很好地工作，直到我的管道在没有任何明显原因(没有内存问题，没有太多打开的文件描述符等)的情况下被卡住。已使用clien

浏览 0提问于2019-02-10得票数 1

1回答

为什么Pandas可以分块加载gzip文件，而Dask不能？

、、、、

我想知道为什么Pandas可以分块打开gzip压缩文件，而Dask必须在处理之前将整个文件加载到内存中。我认为gzip文件不能分块操作，因为它们需要在分区之前解压缩。但是，我能够使用Pandas的chunk方法处理gzip文件，没有任何问题。另外，由于我将来想

浏览 15提问于2020-11-12得票数 0

1回答

如何从压缩的.npy文件创建Dask数组？

我有一个很大的数据集存储为压缩的npy文件。如何将给定的子集堆叠到Dask数组中？我知道dask.array.from_npy_stack，但我不知道如何使用它。这是一个粗略的第一次尝试，它耗尽了我所有的内存： import numpy as np def

浏览 11提问于2020-07-22得票数 0

回答已采纳

1回答

木星中的Array.compute()峰值存储器

、、、、

我正在使用dask开发一个分布式集群，当将结果返回到本地进程时，我注意到了峰值内存消耗。在计算过程中，达斯克是否有任何副本？或者木星实验室需要复制？import dask.array import dask</e

浏览 2提问于2022-03-04得票数 1

回答已采纳

1回答

Dask分布式内存和结果的恒酸洗/解酸洗

、、、、

dask.distributed将数据保存在中，直到不再需要该数据为止。(谢谢@MRocklin!)显然，当另一个主机或其他工作人员需要计算结果时，必须对其进行腌制和发送。当依赖同一主机内的线程并行时，可以避免这种情况，因为所有计算都访问相同的</em

浏览 3提问于2020-07-03得票数 1

1回答

磁盘洗牌上的Dask压缩

、、、、

目前，我正在处理一组lz4压缩的Parquet文件上的Dash本地集群。读取和写入压缩文件工作良好，但当设置和索引时，洗牌算法会将大量未压缩的数据写入磁盘(数据比我的内存大，所以我在磁盘上使用内存不足的洗牌)。Dask中的改组是用partd项目完成的，它的itselfs支持使用snappy或lz4进行压缩。但是

浏览 3提问于2019-10-22得票数 2

回答已采纳

1回答

为什么我在使用大型Dataframes运行dask之后总是会出现内存错误？

、、、

我在使用大型DataFrames时相对较新，所以我不太确定这是否是最好的方法，但我有几个大文件将它们合并在一起(每个文件有3000万到5000万行)，我总是通过使用dataframe获得内存错误消息。在这里，我尝试了一个简化的形式：import numpy as np文件打开 df1= pd.read_csv= ['country', 'tpnb'], how = 'left

浏览 2提问于2022-02-23得票数 0

2回答

dask定制DataFrame加载

、、、、

我有一个定制的文件格式，我想要懒洋洋地加载和处理，如果它是一种数据格式，它将是有用的。我的问题是，需要读取数据集才能生成数据格式，但我希望尽可能晚地读取文

浏览 5提问于2022-05-04得票数 0

1回答

了解将多个文件内容加载到Dask* Array的过程及其扩展方式*

in dsets]我很难理解下一行，以及它是一个"dask数组“的dask_array还是一个”普通“np数组，它指向的dask数组与返回的所有hdf5文件中的数据集一样多。在文件读取阶段，性能(基于线程或内存)是否会因为d

浏览 10提问于2016-08-27得票数 1

回答已采纳

1回答

多个工作流可以在不同的客户端进程之间重用持久化DataFrames吗？

我有一系列的数据准备工作，由外部系统控制(计划、启动、监视等)。job2能否访问由job1持久化的DataFrames？如果是这样的话，是怎么做的？

浏览 2提问于2019-08-28得票数 1

回答已采纳

1回答

Dask:合并后写入csv非常慢(python)

、、

我有一个小的Pandas数据帧(2000行，35列)，我将它与一个大的Dask数据帧(600万行，550列)合并在一起。我将小Pandas数据帧转换为Dask数据帧，并使用以下代码进行合并： final_df=dd.merge(left=small_df,right=big_df,how='inner',on=('var1

浏览 28提问于2020-07-16得票数 0

回答已采纳

1回答

Dask:凸矩阵优化

我目前正在尝试实现Dask的凸矩阵优化。目标是对内存不足的矩阵执行矩阵优化(因式分解)。以一个高矩阵为输入，两个高矩阵为输出，以及一些参数(如收敛性等)。我使用dask数组来分块我的原始矩阵和迭代中间/输出矩阵。最后，迭代是顺序的，前一次迭代的输出被用作新迭代的输入(参见下面的简单示例)。然而，如果我执行下面给出的代码，我看到的是Dask计算标准(由if

浏览 16提问于2019-11-15得票数 1

1回答

分布式应用:提高小型数据传输的速度

、、

我正在尝试使用dask将工作从web服务器卸载给工作人员，以便进行交互式数据分析应用程序。对于我的应用程序来说，简单的groupby()和mean()在dask上比内存中的pandas计算慢三倍。我知道这不是达斯克的目标。但是，我发现分发的dask更适合在交互式应用程序中卸载数据(与不能交互的芹菜相比)。除了持久化之外，我还能做些什么来进一步提

浏览 0提问于2019-12-02得票数 0

1回答

无法将dask_cudf数据加载和计算到活跃的表中，并看到一些与内存相关的错误。(cudaErrorMemoryAllocation内存不足)

、、、、

发行:另一个观察是，当从cudf创建blazingSQL表时，表会被创建，但是没有记录。如果有人能给出一些建议来解决这个问题，那将是很有帮助的。Bl

浏览 4提问于2021-04-29得票数 0

2回答

Dask和numpy -在numpy数组和dask数组之间的缓慢转换

、、、

我需要从一个大的numpy数组中保存一个dask数组。下面是一个最小的工作示例，展示了该过程。请注意，a是使用numpy.random创建的，但不幸的是，我不能使用dask创建数组。= da.from_array( a, chunks = 100000)client.close() 我面临的问题是，<em

浏览 22提问于2020-02-20得票数 0

回答已采纳

1回答

如何在Dask中有效地从DataFrame到多系列？

我正试图找到一种有效的方法，将DataFrame转换为Dask中的一组持久化的Series (列)。考虑这样一种情况，即数据大小要比工作内存之和大得多，而且大多数操作都将由从磁盘读取/溢出到磁盘进行包装。对于仅在单个列(或列对)上操作的算法来说，从磁盘中读取整个DataFrame对于每一列操作都是效率低下的。在这种情况下，最好将本地的DataFrame (可能是持

浏览 4提问于2017-07-06得票数 2

回答已采纳

1回答

在这个例子中到底发生了什么

、、、、

我在tpc数据集的一个片段上用dask编写tpc查询6：lineitem = dd.read_csv("s3://tpc-h-csv/lineitem/lineitem.tblfiltered_df.l_discountprint(time.time() - start) 这是在Dask中编写上述查询的最快方

浏览 3提问于2022-01-24得票数 0

回答已采纳

1回答

在列上合并dask

、、、、

我有一个简单的脚本，目前写的熊猫，我想转换成达克数据格式。在这个脚本中，我对用户指定的列上的两个数据文件执行合并，并试图将其转换为dask。如何将这一行更改为与dask数据格式匹配？

浏览 2提问于2021-04-05得票数 4

回答已采纳

点击加载更多