腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何
减少
DASK
数组
map
块
的
执行时间
?
、
、
我使用numba njit编写了我
的
函数,然后我编写了一个在迭代循环中使用它们
的
总函数。(例如,运行一个迭代5次) 最后,我使用
dask
array.
map
_blocks在
dask
数组
的
所有
块
上映射总函数。 但是计算(即.compute
的
计算结果)仍然很耗时。 有什么办法可以降低它吗?
浏览 8
提问于2020-07-29
得票数 0
1
回答
如何
将大型spark数据帧(5M行)/csv文件拆分成每个数据帧具有相同标题
的
区块(优化方案)
、
、
、
、
我有一个很大
的
csv文件(5 5GB),其中包含大约50M行。我想让更小
的
块
csv(~1M行)从原始
的
csv文件。我尝试了下面的方法来分块,但花了很多时间来执行分块:data =
dask
.dataframe.read_csv('test.csv') data.to_csv('/test-*.cs
浏览 1
提问于2020-09-02
得票数 0
2
回答
如何
使用
Dask
并行化集群上
的
海量图像上
的
目标检测
、
、
、
我正在尝试是否可以使用
Dask
在集群上对海量2D图像(约20-50 GB)中
的
对象进行按
块
并行检测和分割。但是,我看到我可以传递给
map
_blocks
的
函数
的
输出类型也
浏览 3
提问于2016-11-23
得票数 0
1
回答
在并行向HDF5文件写入数据时,
dask
如何
管理任务?
、
、
我想使用python在一个大型
数组
上并行计算。输入
数组
和输出
数组
都不在内存中。此外,写入输出文件是一个潜在
的
瓶颈(因为例如,HDF5通常不支持并行写入)。
dask
.array.
map
_blocks(func).store(...) 在等待写出生成
的
块
时,
dask
如何
决定将多少新
块
放入内存(即读入并开始计算)?是否存在相关
的
配置设置,或者最好避免使用
dask
并实现其
浏览 12
提问于2018-02-12
得票数 2
回答已采纳
2
回答
如何
用
Dask
编程模具
、
在许多情况下,科学家用模版模拟系统
的
动力学,这是将一个数学运算符转移到一个网格上。通常,这种操作消耗了大量
的
计算资源。是这个想法
的
一个很好
的
解释。在numpy中,编写2D 5点模板
的
规范方法如下: for j in range(cols): grid[i, j] = ( grid= ( grid[1:-1,1:-1] + grid[0:-2,1:-1] + grid[2:,1:-1] + grid[1:-1,0:-2] + grid[1:
浏览 2
提问于2016-10-18
得票数 4
回答已采纳
2
回答
如何
利用GPU将大型
dask
数组
(numpy.ndarray)写入Zarr文件?
、
、
、
、
我正在尝试使用
dask
将一个大
的
dask
数组
(46 GB,124 -- 370MB
块
)写入zarr文件。如果我
的
dask
数组
被命名为
dask
_data,那么一个简单
的
dask
_data.to_zarr("my_zarr.zarr")就可以工作。但据我所知,这是一个同步
的
、受CPU限制
的
进程。我想要做
的
是使用并行,将大部分工作分
浏览 0
提问于2020-02-08
得票数 1
1
回答
计算具有共同依赖关系
的
两个值时,
Dask
高内存使用率
、
、
、
我在一台机器上使用
Dask
(LocalCluster有4个进程,16个线程,68.56 to内存),当我试图一次计算两个共享依赖关系
的
结果时,遇到了工作内存问题。计算最终将完成,但一旦开始写入磁盘,就会有一个巨大
的
减速。任何帮助理解这里发生
的
事情的人都将不胜感激。
浏览 18
提问于2021-02-27
得票数 2
回答已采纳
2
回答
为什么
map
_blocks要重塑我
的
数组
,我
如何
控制它?
、
、
我想使用
dask
作为一个非达克感知函数(),这是我可以用
dask
.array.
map
_blocks完成
的
。后者需要一个返回ndarray
的
函数,但是pyproj.Geod.inv返回一个ndarray
的
元组,所以我将得到
的
ndarray连接在一个包装器函数中,然后传递给
dask
.array.
map
_blocksy =
dask
.array.arange(2784, chunks=32) (xc, yc) =
浏览 3
提问于2019-12-10
得票数 0
回答已采纳
1
回答
平面文本文件中
的
分布式
dask
矩阵
、
、
、
、
我正在尝试将矩阵
的
平面文本文件(以制表符分隔)表示到
dask
数组
中,使用distributed将
数组
的
块
分布到集群中。(旁白:这与PySpark
的
方法没有什么不同) 但是,我不清楚
如何
使用可用
的
工具将文本文件解析成矩阵结构。在PySpark中,我可以使用一个简单
的
map
来完成这个任务,该
map
可以将空格上
的
每一行拆分,并将令牌转换为浮动列表,最后将列表转换为索引<
浏览 1
提问于2016-06-03
得票数 1
回答已采纳
1
回答
使裁剪函数在
dask
图上工作
、
、
、
我想使用
dask
图上
的
裁剪优化函数。'])cull(d, ['add-7c83a918eb5b1b9847698e0d800caf0c']) 除了“添加”任务之外,它
减少
了所有的内容。在这个“添加”任务中是一个“
块
函数”,没有提到应用
块
函数
的
地理信息,因此
浏览 0
提问于2020-03-10
得票数 0
回答已采纳
1
回答
更改维度后
的
map
_blocks返回IndexError:元组索引超出范围
、
我正在尝试使用
dask
数组
创建聚合统计信息。
map
_blocks看起来很理想,但却无法正常工作。import
dask
.array as da m = median(a)p
浏览 16
提问于2019-07-07
得票数 1
回答已采纳
1
回答
dask
=parallelized和
dask
=allowed在xarray
的
apply_ufunc中有什么区别?
、
、
、
、
在函数
的
apply_ufunc中,它说: 对于大多数已由
dask
包装
的
NumPy函数,通常最好使用预先存在
的
dask
.array函数,方法是使用预先存在
的
xarray方法,或
浏览 0
提问于2018-08-07
得票数 5
回答已采纳
1
回答
对两个具有不同麻木锁
的
数组
进行操作
我正在尝试为
dask
数组
实现。当A.numblocks != B.numblocks时我应该使用重
块
吗?
浏览 0
提问于2017-12-11
得票数 1
回答已采纳
1
回答
稀疏CSR阵列
的
核外处理
、
、
、
、
如何
在使用Python保存在磁盘上
的
稀疏CSR
数组
的
块
上并行应用一些函数?按照顺序,这可以通过使用joblib.dump保存CSR
数组
、用joblib.load(.., mmap_mode="r")打开它并逐一处理行
块
来实现。用能更有效地做到这一点吗?特别是,假设不需要对稀疏
数组
进行所有可能
的
核心操作,而只需要并行加载行
块
(每个
块
是一个CSR
数组
)并将某些函数应
浏览 3
提问于2017-07-17
得票数 43
1
回答
使用xarray将zarr文件转换为netcdf,导致内存分配错误。
、
、
、
、
我
的
电脑有32‘t
的
内存,所以写5.5GB
的
块
应该不是问题。然而,在运行此脚本后
的
几秒钟内,我
的
内存使用量很快就超过了可用
的
~20 my,脚本就失败了。资料来源:至zarr文件,包含美国2014年6月28日
的
雷达降雨数据,总数约为1.8GB。MemoryError: Unable to allocate 5.48 GiB for an array with shape (30, 3500, 7000) and data type float64 包版本
浏览 14
提问于2022-08-17
得票数 1
回答已采纳
2
回答
如何
将
dask
数组
逐片保存为.png文件?
我正在运行一个机器学习管道,用于分割非常大
的
3D图像。我想将结果(
dask
数组
)存储为.png文件,每个文件对应于
dask
数组
的
一个片段。你对
如何
实现这一点有什么建议吗?我一直在尝试通过使用joblib
dask
并行后端构建一个并行for循环来保存结果,然后逐个切片地循环结果。这可以很好地工作,直到我
的
管道在没有任何明显原因(没有内存问题,没有太多打开
的
文件描述符等)
的
情况下被卡住。已使用clien
浏览 0
提问于2019-02-10
得票数 1
1
回答
重采样和群对大达克阵列与x
数组
-使用
map
_blocks?
、
、
、
我想将它应用到一个大型xarray数据集中,该数据集由一个
块
的
dask
数组
支持。对于计算,我想使用
dask
.distributed。分组和重采样会在所有
块
上触发一些计算,理论上应该与索引交换,但是这种优化还没有在
dask
中实现。 那么,
如何
最好地实现这一点呢?查看仪表板,我应用到
数组
的
函数被执行了几倍于我拥有的
块
数。这两个数字不是应该排成一列吗? 所以
浏览 1
提问于2020-12-16
得票数 3
1
回答
如何
将
Dask
Dataframe转换为
Dask
Array?
、
、
、
我有一个
dask
dataframe对象,但是我希望有一个
dask
数组
。我怎样才能做到这一点?
浏览 0
提问于2018-08-31
得票数 6
1
回答
将
dask
数组
写入netcdf
、
、
我试图将一个
dask
数组
写到netcdf文件中,但我得到了一个内存错误,我发现这有点奇怪,因为
dask
数组
的
大小并不是太大。它大约是0.04 GB。它
的
维度如下: Dimensions: (latitude: 2000, longitude: 5143) Coordinates:下面是我
如何
生成要写入netcdf
的
dask
数组
。= OUTFI
浏览 3
提问于2018-05-23
得票数 1
1
回答
如何
在分块操作中得到原始
的
i,j,k位置?
、
、
、
如果我有一个类似于
dask
_array_object.blocks.ravel()
的
操作,并对由此产生
的
块
进行迭代:另外,我注意到有一个选项可以使用函数
dask
.array.b
浏览 5
提问于2022-02-18
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python数据预处理:使用Dask和Numba并行化加速
放弃“for循环”,教你用这种算法!
大数据开发之用CombineFileInputFormat优化Hadoop小文件
PHP性能优化之PHP代码最佳实践
ES6之编程规范
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券