腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
0
回答
Dask
图
的
执行
和
内存
使用
、
、
我正在
dask
中构建一个非常大
的
DAG,以提交给分布式调度器,在分布式调度器中,节点操作数据帧,而数据帧本身可能非常大。一种模式是,我有大约50-60个函数,用于加载数据
和
构造pandas数据帧,每个数据帧大小为几百MB (并且逻辑上表示单个表
的
分区)。我想将这些连接到图中下游节点
的
单个
dask
数据帧中,同时最小化数据移动。然而,我在这个concat_all函数上被杀死了(集群管理器正在杀死他们,因为超过了他们
的
内存
预算),尽管每个函数
的</e
浏览 6
提问于2017-06-07
得票数 4
1
回答
如何
使用
dask
高效地(代码大小,scheduler+cluster运行时)聚合大量
的
小csv文件(大约50k文件,每个120kb)?
、
、
、
、
我有一个数据集,其中包含每个文件
的
时间序列。我真的很高兴
dask
在我们
的
集群上处理大约1k个文件(在我
的
例子中是一个目录)。但我有大约50个目录。有趣
的
是,构建
dask
图
似乎比实际问题消耗了更多
的
内存
和
CPU。这只在调度器上。我也一直在
使用
dask
中
的
read_csv以及include_path_column=True
和
path作为组。我设法使上
浏览 10
提问于2020-10-24
得票数 1
1
回答
dask
read_parquet
内存
不足
我正在尝试读取一个很大
的
(
内存
不能容纳)镶木地板数据集,然后从中提取样本。数据集
的
每个分区都可以完美地存储在
内存
中。 数据集在磁盘上大约有20 in
的
数据,分为104个分区,每个分区大约200Mb。我不想在任何时候
使用
超过40‘m
的
内存
,所以我相应地设置了n_workers
和
memory_limit。我
的
假设是,
Dask
将加载它能处理
的
尽可能多
的
分区,从它们中采样
浏览 66
提问于2019-09-25
得票数 0
1
回答
Dask
分布式显然不会在任务完成时释放
内存
、
、
、
我试图在一个分布式系统上
执行
一个自定义
的
dask
图
,问题是它似乎没有释放已完成任务
的
内存
。我做错了什么吗?from
dask
import get 'conc
浏览 15
提问于2019-07-08
得票数 2
1
回答
在fastAPI应用程序中通过python缓慢读取小zarr/S3数据
、
、
、
、
) float32
dask
.array<chunksize=(24,), meta=np.ndarray>ds['
浏览 10
提问于2022-10-13
得票数 0
1
回答
Dask
延迟与xarray -计算()结果仍然延迟。
、
、
我尝试
使用
Dask
和
xarray对两个数据集
执行
一些分析(例如avg),然后计算两个结果之间
的
差异。这是我
的
密码b =
dask
.delayed(calc_avg)(p2) total =
dask
.delayed(diff_)(a
浏览 14
提问于2022-05-10
得票数 1
1
回答
Numpy,用迭代替换广播
、
、
、
., np.newaxis, :]据我所知,每个x表示N维空间中
的
点
的
数组,其中N是数组
的
最终维度
的
大小(因此,对于3维空间中
的
点,最终维度是3)。它插入额外
的
维度并
使用
广播来生成这些点集
的
笛卡尔乘积,从而计算所有点对之间
的
距离。, 1.41421356],(因此,正如预期
的<
浏览 0
提问于2015-11-18
得票数 1
1
回答
为什么
Dask
客户端说我
的
集群拥有比实际可用总量更多
的
核心
和
内存
?
、
在
使用
Dask
时,我试图了解Kubernetes吊舱与集群节点
的
核心
和
内存
之间
的
关系。我目前
的
设置如下: 然后,通过
执行</em
浏览 0
提问于2019-03-05
得票数 1
1
回答
我是否正确地调用了
Dask
dataframe.corr()?
、
、
、
、
我试图计算
Dask
数据
的
相关矩阵。from
dask
.distributed import Client import
dask
.dataframe可
浏览 1
提问于2021-04-04
得票数 1
回答已采纳
0
回答
通过
dask
使用
函数
和
大
的
中间体来增加
内存
、
、
、
我有一个关于
dask
.compute()
的
一般性问题,这个问题是由我在
使用
该函数时遇到
的
内存
积累引起
的
。我
使用
dask
.compute()
和
map_partitions() (已经尝试过
使用
dask
.distributed
和
dask
.multiprocessing (后者
使用
pool=ThreadPool
和
pool=multip
浏览 5
提问于2018-07-19
得票数 1
1
回答
如何有效地将npy转换为xarray / zarr
、
、
、
我有一个37 GB
的
.npy文件,我想要转换到扎尔商店,以便我可以包括坐标标签。在理论上,我有这样做
的
代码,但我一直没有
内存
。我想在中间
使用
Dask
来方便,但是我仍然
内存
不足。数据是人
的
股骨软骨
的
“厚度
图
”。每个映射都是一个310x310浮点数数组,其中有47789个。因此,数据形状为(47789,310,310)。
浏览 10
提问于2022-06-17
得票数 4
回答已采纳
1
回答
如何在非DRMAA批处理调度环境中
使用
Dask
?
我想
使用
dask
-distributed,对于支持
的
算法
和
一般任务
图
执行
都是如此。不幸
的
是,我们
使用
的
批处理调度程序不支持DRMAA,所以我不能
使用
dask
-drmaa。我们为所有主机提供了NFS。有没有办法开始
使用
Dask
,或者我需要让批处理调度器支持DRMAA?
浏览 0
提问于2017-03-13
得票数 1
1
回答
限制
Dask
CPU
和
内存
使用
(单节点)
、
、
、
、
我在一台计算机上运行
Dask
,运行.compute()在一个巨大
的
拼图文件上
执行
计算将导致
dask
耗尽系统上
的
所有CPU核心。import
dask
as dd print(df.names.unique().compute()) 是否可以将
dask
配置为
使用
特定数量
的
CPU核心,并将其
内存
使用</e
浏览 45
提问于2020-01-23
得票数 5
回答已采纳
1
回答
如何在输入列表中
使用
自定义DAG
图
(字典)?
、
现在,我想给它一个文件列表,但不重复DAG中
的
项目,如上面的链接所示。我知道delayed在:上
的
功能,但是我需要
使用
get来评估DAG,对吗?如果是这样,我如何与delayed或futures一起
使用
它?
浏览 0
提问于2019-05-18
得票数 0
回答已采纳
3
回答
Dask
DataFrame.to_parquet在读重分区写入操作中失败
、
、
、
、
freeze and no files get written 选择新
的
分区,以便每个分区中文件
的
总
内存
不超过1000 MB。但是,最后
的
to_parquet调用将永远挂起。在
dask
仪表板上,没有任何活动。所有工作人员消耗
的
内存
仍然非常小(55 it ),至少在仪表板中是这样;但是我怀疑它可能只是没有更新,因为一切都变得非常慢。运行代码
的
python进程不断增加
内存
消耗( Mac中
的
虚拟
内存
不断增
浏览 12
提问于2022-03-15
得票数 2
回答已采纳
1
回答
BlazingSQL
和
dask
之间
的
关系是什么?
、
、
、
我正在努力理解BlazingSQL是一个竞争对手还是
dask
的
补充。 我有一些中等大小
的
数据(10-50GB)保存在Azure blob
的
存储空间中。IIUC我可以
使用
BlazingSQL语法查询、连接、聚合
和
使用
CuDF,但我也可以
使用
dask
_cudf将数据读入CuDF,并
使用
python/dataframe语法
执行
所有相同
的
操作。在我看来,他们是直接
的</e
浏览 1
提问于2020-01-18
得票数 3
回答已采纳
1
回答
如何绘制巨大
的
dask
数据框图,最好是全息
图
?
、
、
如何绘制巨大
的
Dask
数据框图?我需要绘制
DASK
数据帧,我需要: import holoviews as hvhv.extension('bokeh', 'matplotlibparquet', hv.BoxWhisker(data=d, datatype=['
dask
浏览 14
提问于2019-07-02
得票数 0
1
回答
选择子集后将其转换为pandas时,
Dask
dataframe
内存
不足
、
、
、
、
所以我有一个包含160M记录
和
240列
的
拼图文件。因此,我
使用
dask
在python中
使用
EMR CLuster m5.12xlarge加载它。
Dask
Name: concat, 489 tasks现在我正试着把它转换成pandas df。这只需要几秒
的
时间来
执行
,并
使用
大约1.5 GB
的
内存
浏览 1
提问于2021-09-23
得票数 0
1
回答
熊猫
的
鳞片
和
串连成一只
dask
数据
、
、
、
、
我有一只相当大
的
熊猫df。我也有一个熊猫系列
的
规模因素factors。下面是我想要实现
的
,但是
使用
熊猫
的
数据。实际情况下
的
dflarge将不适合
内存
。scaled) dflarge = pd.concat(d
浏览 0
提问于2019-05-10
得票数 1
1
回答
使用
从拼花文件创建
的
dataframe时
内存
使用
量过高
、
当我尝试
执行
像
dask
_train_df.head()或
dask
_train_df.loc[2:4].compute()这样
的
简单操作时,我会得到
内存
错误,即使是
使用
17+ GB
的
内存
。799999dtypes: int8(8712)而且我可以运行train.head()
和
train.loc1)因此,我
的
问
浏览 0
提问于2018-12-24
得票数 6
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券