腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
触发
Dask
工作
进程
释放
内存
、
我正在使用
Dask
分发一些函数的计算。我的总体布局如下所示: from
dask
.distributed import Client, LocalCluster, as_completed except Exception as error: log.exception(error) 我的问题是,对于大量的作业,我往往会达到
内存
限制Process memory: 1.15 GB -- Worker me
浏览 55
提问于2019-04-30
得票数 4
回答已采纳
1
回答
了解
dask
cudf对象生命周期
、
、
、
我想了解
Dask
对象的有效
内存
管理过程。我已经设置了一个
Dask
GPU集群,并且我能够执行跨该集群运行的任务。然而,使用
dask
对象,特别是当我运行计算函数时,在GPU上运行的
进程
会随着使用越来越多的
内存
而快速增长,很快我就会收到“
内存
不足错误”。 我想知道如何在使用完
dask
对象后
释放
它们。在下面的示例中,在计算函数之后,我如何
释放
该对象。我运行了几次以下代码。
内存
在它运行的
进程</em
浏览 16
提问于2021-05-06
得票数 1
2
回答
在大于RAM的大型数据文件上应用一个函数
、
、
、
、
这种行为在我看来是合乎逻辑的,也是最节省
内存
的,尽管实践表明,在处理完整个数据文件之前,
Dask
并没有
释放
内存
。
进程
内存
: 1.05 GB --
工作
内存
限制: 1.50 GB的distributed.worker -警告-
内存
使用率很高,但是工人没有数据要存储到磁盘。也许还有其他的
进程
在漏掉
内存
?
进程
内存
: 1.05 GB --
工作
内存<
浏览 5
提问于2020-05-20
得票数 1
回答已采纳
1
回答
Dask
分布式显然不会在任务完成时
释放
内存
、
、
、
我试图在一个分布式系统上执行一个自定义的
dask
图,问题是它似乎没有
释放
已完成任务的
内存
。我做错了什么吗?from
dask
import get} client
浏览 15
提问于2019-07-08
得票数 2
1
回答
将使用大型np.ndarray的短任务并行化
、
、
import multiprocessing pool.map(f, M)因此,问题是如何使用
dask
处理以大数据为输入的短任务?
浏览 7
提问于2022-03-07
得票数 0
1
回答
使用自定义函数将
dask
包写到DB
、
我正在
dask
上运行一个函数,将数据转储到NoSQL DB中,如下所示: # code to write into db except (ValueError, TypeError):b
浏览 1
提问于2020-08-15
得票数 2
回答已采纳
1
回答
在
Dask
.distributed中使用client.scatter(df)时异常
、
我正在使用稳定/
Dask
存储库中的Helm Chart在Kubernetes上使用
dask
。没有名为“pandas.core.inders.manager”的模块;“pandas.core.internals”不是包 在Python3.7上,查看已安装的包显示Pandas==0.24.1 &
dask
-core查看
工作
进程
上的
内存
消耗表明没有向
工作
进程
发送任何内容,当我添加关键字=‘broadcast’时,我可以观察到第二个
浏览 18
提问于2019-02-22
得票数 0
回答已采纳
1
回答
Dask
distributed -创建
工作
者的指南
、
我刚接触
dask
,在设置
dask
分布式集群时,我不确定这样做的最佳实践是什么。在设置
工作
进程
时,让两个
工作
进程
都有4 1GB的
内存
,还是让8个
工作
进程
都有1 1GB的
内存
更有效率?另外,当
工作
线程的数量增加时,我们还需要增加调度器的
内存
吗?
浏览 12
提问于2019-08-14
得票数 1
2
回答
distributed.worker
内存
使用率较高,但
工作
进程
没有要存储到磁盘的数据
、
通读完文档后,请访问 https://distributed.
dask
.org/en/latest/worker.html ,我仍然不清楚这个错误会对这个应用程序的结果产生什么影响。
浏览 203
提问于2020-02-12
得票数 6
1
回答
每个
工作
人员有多少个
dask
作业
、
、
如果我启动一个包含N个
工作
进程
的
dask
集群,然后使用cluster.compute提交N个以上的作业,
dask
是尝试同时运行所有作业(通过在每个
工作
进程
上调度一个以上的作业),还是将这些作业排队并按顺序运行每个作业都是
内存
密集型的,并且提交的作业比
工作
线程多会导致它们都因为
内存
问题而崩溃。 有没有一种方法可以强制
dask
一次只在一个worker上运行一个作业,并对其他作业进行排队?
浏览 3
提问于2020-11-23
得票数 0
1
回答
如何在
Dask
分布式
工作
人员之间共享一个大型只读对象?
、
、
、
、
问题关于这个问题的更多细节 我有两个
Dask
系列Source_list和Pattern_list,分别包含700万和300万字符串。**Threads** distributed.worker -警告-
内存
使用率很高,但是
浏览 0
提问于2019-02-09
得票数 3
1
回答
Dask
工作
进程
内存
不断增长
、
我正在
dask
分布式,tensorflow,keras设置上优化ML模型。
工作
进程
在
内存
中不断增长。我在.gather()之后使用client.cancel(),但是没有效果。唯一的解决方案是重新启动
工作
进程
。
Dask
分布式版本: 1.21.1
浏览 1
提问于2018-04-07
得票数 1
2
回答
dask
能从csv文件中读取数据吗?
、
、
、
转换可以正常
工作
,但是从csv文件读取不是并行完成的。它真的很慢(在SSD上一个1 1GB的文本文件大约需要30分钟,所以我猜它不是IO绑定的)。df = ddf.read_csv("data/Measurements*.csv", sep=';',
浏览 3
提问于2016-10-18
得票数 29
回答已采纳
1
回答
在
Dask
映射函数中设置最大工人数
、
、
、
、
我有一个
Dask
进程
,它使用map函数
触发
100名
工作
人员:docker-compose up -d --scale worker=20 问题是我的机器崩溃了,因为map函数并行地
触发
了20个
工作
人员,这使得
内存
和我希望保持20个
工作
人员的配置,因为我将这些
浏览 2
提问于2022-11-03
得票数 3
回答已采纳
1
回答
优化散射
、
for i in range(Y.shape[0])] 我可以拆分Y (这很好,因为我没有足够的
内存
一次加载它),但是我的所有
工作
人员都需要我有足够的
内存
来处理它。但是我找不到任何方法来允许短
内存
尖峰(在反序列化过程中发生),所以如果我设置了
内存
限制,保姆就会杀死我所有的
工作
人员。然后我所有的新员工。以此类推。所以我有三个问题: 是否有一种方法可以设置允许在序列化数据进入并解压缩时出现峰值的<
浏览 2
提问于2019-03-07
得票数 2
回答已采纳
1
回答
DaskLightGBM
内存
泄漏
、
我试图在相对较小的机器(32‘m
内存
,8核)上运行一个相对较大的DASKLightGBM任务,所以我将
内存
使用量限制在20’m……数据集大约有100M行,50列。learner.fit(dd_feature_009a013a_train[x_columns],dd_price_solely_y_train[y_column_now])/home/ubuntu/anaconda3/lib/python3.8/site-packages/l
浏览 4
提问于2021-09-19
得票数 0
2
回答
嵌套的
dask
.compute不阻塞
、
、
、
dask
.compute(...)应该是一个阻塞调用。然而,当我嵌套了
dask
.compute,并且内部的
dask
.compute执行I/O (如
dask
.dataframe.read_parquet)时,内部的and不是阻塞的。2个
工作
者,每个
工作
者有8个
进程
,如下所示:,那么我预计最多会有2 x因此,最终可能
浏览 11
提问于2017-08-10
得票数 0
1
回答
DASK
Memory Per Worker指南
、
、
我的调度器在T2中(4 4GB/2vCPU),我的4个
工作
进程
也是如此。每个worker运行一个
进程
,一个线程和4 4GB的
内存
限制,即
dask
-worker MYADDRESS --nprocs 1 --nthreads=1 --memory-limit=4GB。然后,我将使用map_partitions来完成主要
工作
。这对于小的数据集很有效,但是对于100mil的数据集,我的
工作
人员由于没有足够的
内存
而不断崩溃。我在这里做错了什么?我是不
浏览 32
提问于2019-09-20
得票数 1
1
回答
计算具有共同依赖关系的两个值时,
Dask
高
内存
使用率
、
、
、
我在一台机器上使用
Dask
(LocalCluster有4个
进程
,16个线程,68.56 to
内存
),当我试图一次计算两个共享依赖关系的结果时,遇到了
工作
内存
问题。在下面显示的示例中,仅用一次计算就可以很好地快速计算result,
工作
人员的总
内存
使用量最高可达1 1GB左右。但是,当使用两次计算来计算results时,当总
内存
使用量约为40 is时,
工作
人员会迅速耗尽所有
内存
,并开始写入磁盘。计算最终将完成,但一旦开
浏览 18
提问于2021-02-27
得票数 2
回答已采纳
1
回答
用于numpy数组的free()的Python等价物?
、
、
、
我有许多需要存储为
dask
数组的大型numpy数组。在尝试从.npy加载每个数组,然后将其转换为
dask
.array时,我注意到
内存
使用率几乎与常规numpy数组一样多,即使在将arr加载到
dask
.array之后执行del arr之后也是如此。= da.from_array(arr)print(f'Array
浏览 2
提问于2021-07-23
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
热门
标签
更多标签
云服务器
ICP备案
对象存储
云直播
腾讯会议
活动推荐
运营活动
广告
关闭
领券