对于大于内存的size=(M，N) dask数组:如何从chunks=(1，N)重新分块到chunks=(M，1)？

对于大于内存的size=(M,N) dask数组，我们可以使用dask的rechunk方法将其重新分块到chunks=(M,1)。

首先，我们需要导入dask和dask.array模块：

import dask
import dask.array as da

然后，我们可以使用da.from_array方法创建一个dask数组，参数中指定size和chunks：

arr = da.from_array(data, chunks=(1, N))

接下来，我们可以使用arr.rechunk方法将dask数组重新分块到chunks=(M,1)：

rechunked_arr = arr.rechunk((M, 1))

最后，我们可以使用rechunked_arr.compute方法计算结果并获取最终的分块dask数组。

Dask数组的重新分块可以有效地优化计算性能和内存使用，尤其是对于大型数据集和内存限制的情况。通过将数据重新分块成更合适的大小，可以提高计算的并行性和效率。

推荐的腾讯云相关产品：腾讯云弹性MapReduce（EMR），提供大数据计算和存储服务，可支持处理大规模数据集。

更多关于腾讯云EMR的信息，请访问：腾讯云EMR产品介绍

页面内容是否对你有帮助？

有帮助

没帮助

对于大于内存的size=(M，N) dask数组:如何从chunks=(1，N)重新分块到chunks=(M，1)？

、

为了，例如，在整个轴上应用一个用Numpy/Numba编码的IIR过滤器，我需要用m1 < m0将一个size=(M, N) dask数组从chunks=(m0, n0)重新分块到chunks=(m1由于Dask避免了重复<

浏览 16提问于2019-03-24得票数 2

回答已采纳

1回答

在3-D `dask.array`上使用`dask.array.map_block()`并行化直线拟合

、、

我有一系列在不同时间记录的N张图像。我已经将图像堆叠到一个3-D dask数组中，并沿着时间轴对它们进行重新分块。，applying-a-function-along-an-axis-of-a-dask-array，与此相关，但它没有解决专门设置块大小的问题。在使用da.apply_along_axis时，我发现了一个与dask-performance-apply-along-axis中报告的问题类

浏览 22提问于2020-06-12得票数 1

1回答

有没有一种有效的方法将dask.array的每一行(或每一列)乘以一个向量元素？

、、、

我在dask中有一个(巨大的) 2D数组，它放不下内存，需要将每一列乘以相应数量的向量。也就是说，我想映射M(i，j)→x(i)*M(i，j)。我目前的计划是从向量生成一个dask数组，然后映射一个零矩阵(与原始矩阵大小相同)，以重

浏览 20提问于2020-02-08得票数 1

1回答

使用LocalCluster的限制？将50 to数据持久化到90 to内存时崩溃

、

系统信息: CentOS，python 3.5.2，64核，96 GB内存这应该起作用吗?还是我遗漏了一些显而易见的东西？import dask.array as

浏览 3提问于2018-11-14得票数 0

1回答

随机分组项目列表，但某些项目不能在同一组中

我有一个要放入n个组中的名称列表。我可以轻松地做到这一点。然而，我的问题是，一些项目无论如何都不能组合在一起。有没有一个简单的解决方案？我现在是这样做的： name_list = ["Item1", "Item2", "Item3", "Item4", "Item5", "Item6", "Item7"

浏览 2提问于2018-01-26得票数 0

1回答

中介的中位数选择python

、、、、

我已经将它用于小型数组/列表，但当数组大小超过26时，它会出现以下错误："RuntimeError:最大递归深度超出“。对于大小为25及以下的数组，没有问题。我的最终目标是让它对大小为500的数组运行，并进行多次迭代。迭代不是一个问题。我已经研究过StackOverflow并看过文章：和其他许多。我有一种预感，在随机生成的数组中复制可能导致了一个问题，但似乎并非如此。return chun

浏览 3提问于2016-11-02得票数 1

回答已采纳

1回答

如何在分块后为每列创建3个数据点？

、

= len_ // 2 rest_data = X[half_size:] rest_chunks = [arr.tolist() for arr in rest_chunks_n(X) 我将此作为

浏览 30提问于2021-09-21得票数 0

3回答

Numpy数模式

、

Numpy中是否有一个函数，允许您一次获取4条记录，并查看它们与第二条数据集匹配的位置？一旦有匹配，移动到第一个数据集的下4个记录。它不会总是每4个记录，但我用这个例子。So if dataset one had - 1,5,7,8,10,12,6,1,3,6,8,9

浏览 4提问于2017-11-20得票数 0

回答已采纳

2回答

在R中分块的txt文件

、、

全,在这篇文章中，他提供了从XML文档中提取所有<p>标记的代码，将该内容分割成1000个单词块，并应用了一组数据传递技巧。一旦完成，他就会将这个分块函数插入到一个生成数据矩阵的循环中，该数据矩阵可以在mallet中使用。请看下面的代码。我的问题是，如何处理.txt文件？显然，文本文件没有像<p>这样的

浏览 2提问于2017-03-06得票数 0

2回答

在dask.array.map_blocks [OpenCV，Dask]中调用并返回cv2.cvtColor

、、

我试图执行颜色转换从3通道到1通道平行使用达克。我希望这样做，这样我就可以在将来执行内存不足的计算了。我用da.map_blocks。print("chunk size of `im`", im.chunks, '\n') result = im.map_blocks(showplt, dtype=im[0].dtype, chunks, dtype=im[0].dtype, chunk

浏览 2提问于2017-04-13得票数 4

回答已采纳

2回答

另一个煤焦移位C

、、、

我试着从char中得到一个值，因为我已经读到C中的char对于编译器来说是一个数字，所以我尝试在它上使用数学。我有一个由4个字符串组成的数组。每个元素都是另一个包含20 +1个字符的数组(包括null \0)，我要做的是使用变量"decryption_shift“将每个字符串中的每个字符的值按一个预定义的值移动。~贾斯汀 void decrypt_chunks</

浏览 3提问于2013-09-15得票数 0

回答已采纳

2回答

利用dask阵列去除坏像素

、

数据集的大小从8 GB到TB，所以我想使用dask数组，因为我可以将死像素删除与其他处理步骤链接在一起。import numpy as npdata[:, :, 2, 7] = 0 data[:, :, 9

浏览 0提问于2018-06-20得票数 1

2回答

如何对js数组进行分块，并在分块上应用数学函数？

、

将数组分成小块，然后在小数组中应用数学函数的最快方法是什么？数学函数可以是简单的，例如块mod 26的总和。我的意思是，我有数组[1,2,3,4,5,6]，我需要创建它的区块，使每3个元素包含在1个区块中，所以我将从主数组获得： [1,2,3] [4,5,6] [1,2,3] 6mod26和[4,5,6]15mod26的应用总数。因此，最终<e

浏览 12提问于2020-04-25得票数 1

回答已采纳

1回答

菜鸟:在GO (Chunking)中适当调整[]字节大小

我不太确定如何做到这一点--我想做一个“文件分块”，我从一个二进制文件中抓取固定的分片，以便稍后作为学习项目上传。: %d\n", fi.Name(), fi.Size()) chunkSize :=bytes fmt.Printf(&quo

浏览 2提问于2013-11-15得票数 0

1回答

将大于内存的Dask数组保存到hdf5文件

、、

在使用分布式dask时，我需要将dask数组保存到hdf5。我的情况与本期中描述的情况非常相似：https://github.com/dask/dask/issues/3351。=35,threads_per_worker=1)create_and_store_dask_array() 我目前正在解决这个问题，方法是将我<em

浏览 16提问于2020-07-15得票数 1

回答已采纳

3回答

用MATLAB计算平均值的下采样方法

、

假设我有一个包含44100个样本的文件，采样频率为fs=44100 Hz。所以我的文件是1秒长的。我想把它降到8赫兹的采样频率，但我不想这样做，每44100/8 = 5512,5样本，并保存在一个新的阵列。但是通过取前5512个样本的平均值，保存在1的新数组中。然后取样本5513-11024，平均值，并保存到新数组的第二个位置。等等..。然后取样本11025到</

浏览 0提问于2015-09-29得票数 0

回答已采纳

2回答

Xarray分布式无法序列化

、、

('1/1/2019', periods=n_time, freq='D')似乎我在我的第一个MRE中还不够清楚，所以我决定重写到目前为止收到的所有输入。我需要对500米到250米的卫星数据集进行上采样。最后的目标是，由于还

浏览 1提问于2020-06-19得票数 1

4回答

像D中元组序列那样的变元数的去结构迭代

、、、

and iterate over subranges of size 2在上面的这种形式中，它不会编译，因为它只希望foreach循环有一个参数(范围)。我想要的是自动使用或推断一个滑动窗口作为一个元组，

浏览 2提问于2021-05-24得票数 1

回答已采纳

3回答

将字符串分成三段

、、

编写一个函数，该函数以字符串"s“为参数，将s拆分成数组，并返回一个元组(左、中、右)。如果字符串的长度不能被三整除，您的函数应该尝试尽可能均匀地拆分字符串。我的代码现在输出了所有的3 print(tuple([s[i:i+3] for i in range(0, len(s), 3)])) s = input("what

浏览 1提问于2019-08-07得票数 1

3回答

大规模随机辐射的快速生成方法

、、、

我想要生成形状(1e7, 800)的随机矩阵。但是我发现numpy.random.rand()在这个比例上变得非常慢。有更快的路吗？

浏览 14提问于2021-12-21得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

对于大于内存的size=(M，N) dask数组:如何从chunks=(1，N)重新分块到chunks=(M，1)？

相关·内容

对于大于内存的size=(M，N) dask数组:如何从chunks=(1，N)重新分块到chunks=(M，1)？

在3-D `dask.array`上使用`dask.array.map_block()`并行化直线拟合

有没有一种有效的方法将dask.array的每一行(或每一列)乘以一个向量元素？

使用LocalCluster的限制？将50 to数据持久化到90 to内存时崩溃

随机分组项目列表，但某些项目不能在同一组中

中介的中位数选择python

如何在分块后为每列创建3个数据点？

Numpy数模式

在R中分块的txt文件

在dask.array.map_blocks [OpenCV，Dask]中调用并返回cv2.cvtColor

另一个煤焦移位C

利用dask阵列去除坏像素

如何对js数组进行分块，并在分块上应用数学函数？

菜鸟:在GO (Chunking)中适当调整[]字节大小

将大于内存的Dask数组保存到hdf5文件

用MATLAB计算平均值的下采样方法

Xarray分布式无法序列化

像D中元组序列那样的变元数的去结构迭代

将字符串分成三段

大规模随机辐射的快速生成方法

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐