腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Dask
-
是否
有
可能
通过
自定义
函数
使用
每个
worker
中
的
所有
线程
?
python
、
dask
、
python-multithreading
在我
的
例子
中
,我在S3
中
有
几个文件和一个
自定义
函数
,该
函数
读取
每个
文件并
使用
所有
线程
进行处理。为了简化示例,我只生成了一个数据帧df,并且假设我
的
函数
是
使用
多进程
的
tsfresh.extract_features。to_process = [delayed(fun)(df, 0) for i in range(10)] out
浏览 26
提问于2020-08-27
得票数 1
1
回答
任务花费
的
时间比预期完成
的
时间要长得多
python
我已经注意到,
使用
两个工作进程运行分布式只会
使用
每个
工作进程一个核心。 以下面的脚本为例,获取times2大约需要20秒,获取times大约需要5秒。这意味着
每个
工作者
使用
单个核心执行4个任务,而不是
使用
所有
4个核心并行执行。我还确认,
使用
资源监视器时,
每个
worker
只
使用
一个核心。为什么分布式只为
worker
使用
一个核心,而不是并行执行任务?
浏览 13
提问于2017-02-26
得票数 1
回答已采纳
1
回答
在
dask
集群上运行自己
的
多
线程
函数
dask
我
有
一些功能,它
使用
图像处理功能,这些功能本身就是多
线程
的
。我在
dask
集群上分发了许多这些
函数
调用。首先,我在主机上启动了一个调度程序:
dask
-scheduler。我启动了工人:
dask
-
worker
--nthreads 1 --memory-limit 0.9 tcp://scheduler:8786。func, ['somefile', 'someotherfile'
浏览 7
提问于2020-12-18
得票数 0
回答已采纳
1
回答
Dask
的
Client()
函数
中
参数
的
默认值是多少?
python
、
memory
、
memory-management
、
dask
、
dask-distributed
我正在尝试理解
Dask
的
Client()
函数
参数。假设我
使用
Dask
的
Client()
函数
编写了以下代码:import joblib 如果我没有为Client()
函数
中
的
参数指定任何值,那么参数
的
默认值是什么:(ii) threads_per
浏览 1
提问于2020-05-28
得票数 1
回答已采纳
1
回答
dask
分布
是否
使用
“龙卷风协同”来执行员工任务?
python
、
multithreading
、
tornado
、
coroutine
、
dask
我在达克上读到:
Worker
节点和Scheduler节点同时运行。它们为多个重叠请求提供服务,同时在不阻塞
的
情况下执行多个重叠计算。我一直认为单
线程
并发编程最适合于昂贵
的
I/O,而不是CPU绑定
的
作业。然而,我希望许多
dask
任务(例如
dask
.pandas、
dask
.array)都是CPU密集型
的
。分布式系统
是否
只对客户端/服务器通信
使用
旋风,并有单独
的
进
浏览 3
提问于2016-10-04
得票数 4
回答已采纳
2
回答
如何在
dask
/distributed
中
存储工作局部变量
python
、
distributed
、
dask
使用
dask
0.15.0,分布式1.17.1。 我想要记住
每个
工作人员
的
一些事情,比如访问google云存储
的
客户端,因为实例化它
的
成本很高。我更愿意将其存储在某种
worker
属性
中
。做这件事
的
规范方法是什么?或者,全球化是未来
的
发展方向吗?
浏览 3
提问于2017-07-10
得票数 8
1
回答
Dask
与
使用
C指针时
的
多处理
dask
、
dask-distributed
、
dask-delayed
当我在python中
使用
C指针并尝试
使用
dask
处理它时,它
的
工作方式很专业。但是当我尝试
使用
python
的
多处理模块时,它会分割指针引用错误。 在
使用
C指针时,
dask
如何克服多处理模块
浏览 0
提问于2019-12-13
得票数 0
1
回答
Python +分布式-
是否
可以
使用
Dask
利用一组工作程序来应用
函数
以同时将文件从文件夹中分离出来
python
、
concurrency
、
dask
、
distributed-system
、
dask-distributed
我想写一个程序来计算读取.py文件夹
中
的
文件所需
的
时间,并计算
每个
文件
的
圈复杂度。我安装了radon来计算复杂性,但我也希望能够实现一个分布式系统,该系统创建一组n个工人,其中
每个
工人在文件夹中被给予一个单独
的
文件,然后
使用
Radon计算该文件。我正在为分布式系统
使用
dask
,我想知道
是否
有
可能
实现我上面所要求
的
。例如,如果我
有
浏览 0
提问于2017-11-29
得票数 0
1
回答
dask
: memory_limit控制什么?
python
、
dask
、
dask-distributed
在
dask
的
LocalCluster
中
,
有
一个参数memory_limit。我在文档(https://distributed.
dask
.org/en/latest/
worker
.html#memory-management)
中
找不到关于限制是针对
每个
工作
线程
、
每个
线程
还是针对整个集群
的
详细信息这
可能
至少在一定程度上
浏览 45
提问于2021-10-04
得票数 2
回答已采纳
1
回答
达斯克工人
的
记忆清理
python
、
dask
、
dask-distributed
我在
每个
任务和client.cancel(df)之后都尝试过client.cancel(df),第一个任务杀死了工作人员,并将CancelledError发送到其他运行
中
的
任务,这是很麻烦
的
;第二个任务没有多大帮助,因为我们在map
函数
中
使用
了大量
的
自定义
对象和
函数
。我确信,大部分内存被占用是因为
使用
client.map(..)调用
的
自定义
python
函数
和对象。
浏览 2
提问于2020-01-18
得票数 4
1
回答
如何在正在计算
的
函数
中
获取任务键ID?
python-2.7
、
distributed
、
distributed-computing
、
dask
我
使用
dask
.distributed进行
的
计算包括创建中间文件,其名称包括UUID4,这些文件标识了该块工作。{}.txt'.format(str(uuid.uuid4()).replace('-', ''))) 同时,
dask
分布式集群
中
的
所有
任务都有唯一
的
密钥。因此,
使用
浏览 7
提问于2016-09-05
得票数 1
回答已采纳
1
回答
Dask
延迟性能问题
python
、
parallel-processing
、
dask
我正在尝试并行化一个不
使用
Dask
容器
的
“
自定义
”
函数
。我只想加快计算速度。但是我
的
结果是,当我尝试
使用
dask
.delayed并行化时,它
的
性能要比运行串行版本差得多。下面是一个演示问题
的
最小实现(我实际上想要这样做
的
代码涉及得更多:) # CPU intensive z = 0, 1_000_0
浏览 1
提问于2022-09-25
得票数 2
2
回答
如何
使用
多核与滑雪板数据库扫描?
python
、
scikit-learn
、
parallel-processing
、
dask
、
dbscan
我正试图
通过
dbscan处理大量数据,并希望
使用
机器上
所有
可用
的
内核来加快计算速度。我
使用
的
是
自定义
距离度量,但距离矩阵不是预先计算
的
。model.fit(X) CPU
的
使用
率仅为2%。看起来,计算
中
只包括了一个
可能
的
48核
中
的
一个核。al
浏览 0
提问于2019-11-18
得票数 4
1
回答
如何在linux
中
控制
每个
工作人员
的
python
线程
数?
python
、
multithreading
、
multiprocessing
、
dask
、
dask-distributed
在linux
中
,我试图在多进程但
每个
进程设置单
线程
的
情况下
使用
dask
本地集群,但到目前为止失败了: cluster = LocalCluster(n_workers=2, processes=True, threads_per_
worker
Client(c
浏览 6
提问于2022-08-31
得票数 0
回答已采纳
2
回答
使用
dask
分布式时OMP_NUM_THREADS出错
python
、
numpy
、
cluster-computing
、
dask
我正在
使用
,一个允许并行计算
的
框架。在这方面,我
的
主要用例是
使用
NumPy。当我包含依赖于NumPy
的
np.linalg代码时,
使用
OMP_NUM_THREADS时会出现一个错误,这与有关。一个最小
的
例子是:import numpy as np def).sum() # tested; throws erro
浏览 20
提问于2016-09-10
得票数 17
回答已采纳
1
回答
如何从达克-雅恩作业
中
获取工人
的
日志?
dask
我曾尝试在~/.config/
dask
/distributed.yaml和~/.config/
dask
/yarn.yaml中
使用
以下内容, sample_formatter:然后,在我
浏览 3
提问于2019-08-23
得票数 0
回答已采纳
1
回答
config.yaml
中
dask
分布式pods、workers、中央处理器和内存
的
关系
dask
、
dask-distributed
在
使用
Helm设置
dask
集群时,config.yaml文件中有一组变量用于
自定义
工作进程
的
数量,我希望在术语方面能得到一些帮助。如果我
通过
了"helm ...更新-f config.yaml“
worker
: allowed-failures: 2 resources2个cpus,并
使用
我
所有
的512 GB RAM。(减去专用于调度器
的
资
浏览 15
提问于2019-03-01
得票数 1
1
回答
使用
Docker Swarm模板命名
Dask
Worker
docker
、
docker-compose
、
dask
、
docker-swarm
、
dask-distributed
我目前正在
使用
Docker Swarm在集群中部署/管理多个
Dask
Worker
。为了便于调试,我希望能够根据Swarm
中
运行它
的
节点来命名工作进程。
dask
-
worker
命令
有
一个--name参数,然而,Docker
的
模板在entrypoint或cmd选项
中
似乎不起作用。例如: ...不幸
的
是,{{.Node.Hostname}}模板似乎只在docker-compose.yml文件<e
浏览 10
提问于2020-09-14
得票数 0
回答已采纳
1
回答
在本地机器上运行
dask
时
线程
数和总体cpu利用率
python
、
dask
、
dask-distributed
, threads_per_
worker
=ThreadPerWorker)从截图中可以看出,
dask
已经检测到了8个核心。与其看到每一个
线程
都有8个进程,不如看看我们拥有的是什么:
每个
python进程10到12个
线程
?为什么 让我们看一看cpu利用率。下面是Activity报告
的
cpu负载--经过多年
的
使用
证明是相当可靠
的
:特别是当我运行基于jvm
的
<e
浏览 0
提问于2019-05-23
得票数 1
回答已采纳
1
回答
任务网关,设置工作者资源
dask
、
dask-kubernetes
、
dask-gateway
我正在尝试按照docs here为工作人员设置资源,但设置
使用
的
是
Dask
Gateway。具体地说,我希望能够遵循this question
的
答案,但
使用
的
是
Dask
Gateway。我在ClusterConfig options
中
找不到对
worker
资源
的
引用,我尝试了以下(as per this answer),但似乎不起作用: def set_resources(
dask
_
worke
浏览 9
提问于2021-09-23
得票数 5
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
使用 Dask在Python 中进行并行计算
撸论文系列——F1 Query
Ray 分布式计算框架详解
Python数据预处理:使用Dask和Numba并行化加速
Goroutine并发调度模型深度解析之手撸一个高性能Goroutine池
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券