腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
内存
中
压缩
的
持久
化
Dask
数组
、
、
、
假设我有一个类,它以
压缩
的
方式存储一个numpy
数组
,但也支持索引: def __init__(self, numpy_array): "..有没有一种合理
的
(非hacky
的
)方法让它与
持久
性很好地协同工作?我希望能够定义一个大
的
(但可
压缩
的
)
数组
x,然后获得x.persist()
的
等价物,但是
内存
中</
浏览 9
提问于2017-08-24
得票数 0
1
回答
优化散射
、
for i in range(Y.shape[0])] 我可以拆分Y (这很好,因为我没有足够
的
内存
一次加载它),但是我
的
所有工作人员都需要我有足够
的
内存
来处理它。但是我找不到任何方法来允许短
内存
尖峰(在反序列
化
过程中发生),所以如果我设置了
内存
限制,保姆就会杀死我所有的工作人员。然后我所有的新员工。以此类推。所以我有三个问题: 是否有一种方法可以设置允许在
浏览 2
提问于2019-03-07
得票数 2
回答已采纳
2
回答
如何将
dask
数组
逐片保存为.png文件?
我正在运行一个机器学习管道,用于分割非常大
的
3D图像。我想将结果(
dask
数组
)存储为.png文件,每个文件对应于
dask
数组
的
一个片段。你对如何实现这一点有什么建议吗?我一直在尝试通过使用joblib
dask
并行后端构建一个并行for循环来保存结果,然后逐个切片地循环结果。这可以很好地工作,直到我
的
管道在没有任何明显原因(没有
内存
问题,没有太多打开
的
文件描述符等)
的
情况下被卡住。已使用clien
浏览 0
提问于2019-02-10
得票数 1
1
回答
为什么Pandas可以分块加载gzip文件,而
Dask
不能?
、
、
、
、
我想知道为什么Pandas可以分块打开gzip
压缩
文件,而
Dask
必须在处理之前将整个文件加载到
内存
中
。我认为gzip文件不能分块操作,因为它们需要在分区之前解
压缩
。但是,我能够使用Pandas
的
chunk方法处理gzip文件,没有任何问题。另外,由于我将来想
浏览 15
提问于2020-11-12
得票数 0
1
回答
如何从
压缩
的
.npy文件创建
Dask
数组
?
我有一个很大
的
数据集存储为
压缩
的
npy文件。如何将给定
的
子集堆叠到
Dask
数组
中
? 我知道
dask
.array.from_npy_stack,但我不知道如何使用它。这是一个粗略
的
第一次尝试,它耗尽了我所有的
内存
: import numpy as np def
浏览 11
提问于2020-07-22
得票数 0
回答已采纳
1
回答
木星
中
的
Array.compute()峰值存储器
、
、
、
、
我正在使用
dask
开发一个分布式集群,当将结果返回到本地进程时,我注意到了峰值
内存
消耗。在计算过程
中
,达斯克是否有任何副本?或者木星实验室需要复制?import
dask
.array import
dask</e
浏览 2
提问于2022-03-04
得票数 1
回答已采纳
1
回答
Dask
分布式
内存
和结果
的
恒酸洗/解酸洗
、
、
、
、
dask
.distributed将数据保存在
中
,直到不再需要该数据为止。(谢谢@MRocklin!)显然,当另一个主机或其他工作人员需要计算结果时,必须对其进行腌制和发送。当依赖同一主机内
的
线程并行时,可以避免这种情况,因为所有计算都访问相同
的</em
浏览 3
提问于2020-07-03
得票数 1
1
回答
磁盘洗牌上
的
Dask
压缩
、
、
、
、
目前,我正在处理一组lz4
压缩
的
Parquet文件上
的
Dash本地集群。读取和写入
压缩
文件工作良好,但当设置和索引时,洗牌算法会将大量未
压缩
的
数据写入磁盘(数据比我
的
内存
大,所以我在磁盘上使用
内存
不足
的
洗牌)。
Dask
中
的
改组是用partd项目完成
的
,它
的
itselfs支持使用snappy或lz4进行
压缩
。但是
浏览 3
提问于2019-10-22
得票数 2
回答已采纳
1
回答
为什么我在使用大型Dataframes运行
dask
之后总是会出现
内存
错误?
、
、
、
我在使用大型DataFrames时相对较新,所以我不太确定这是否是最好
的
方法,但我有几个大文件将它们合并在一起(每个文件有3000万到5000万行),我总是通过使用dataframe获得
内存
错误消息。在这里,我尝试了一个简化
的
形式:import numpy as np文件打开 df1= pd.read_csv= ['country', 'tpnb'], how = 'left
浏览 2
提问于2022-02-23
得票数 0
2
回答
dask
定制DataFrame加载
、
、
、
、
我有一个定制
的
文件格式,我想要懒洋洋地加载和处理,如果它是一种数据格式,它将是有用
的
。我
的
问题是,需要读取数据集才能生成数据格式,但我希望尽可能晚地读取文
浏览 5
提问于2022-05-04
得票数 0
1
回答
了解将多个文件内容加载到
Dask
Array
的
过程及其扩展方式
in dsets]我很难理解下一行,以及它是一个"
dask
数组
“
的
dask
_array还是一个”普通“np
数组
,它指向
的
dask
数组
与返回
的
所有hdf5文件
中
的
数据集一样多。在文件读取阶段,性能(基于线程或
内存
)是否会因为d
浏览 10
提问于2016-08-27
得票数 1
回答已采纳
1
回答
多个工作流可以在不同
的
客户端进程之间重用
持久
化
DataFrames吗?
我有一系列
的
数据准备工作,由外部系统控制(计划、启动、监视等)。job2能否访问由job1
持久
化
的
DataFrames?如果是这样的话,是怎么做
的
?
浏览 2
提问于2019-08-28
得票数 1
回答已采纳
1
回答
Dask
:合并后写入csv非常慢(python)
、
、
我有一个小
的
Pandas数据帧(2000行,35列),我将它与一个大
的
Dask
数据帧(600万行,550列)合并在一起。我将小Pandas数据帧转换为
Dask
数据帧,并使用以下代码进行合并: final_df=dd.merge(left=small_df,right=big_df,how='inner',on=('var1
浏览 28
提问于2020-07-16
得票数 0
回答已采纳
1
回答
Dask
:凸矩阵优化
我目前正在尝试实现
Dask
的
凸矩阵优化。目标是对
内存
不足
的
矩阵执行矩阵优化(因式分解)。以一个高矩阵为输入,两个高矩阵为输出,以及一些参数(如收敛性等)。我使用
dask
数组
来分块我
的
原始矩阵和迭代中间/输出矩阵。最后,迭代是顺序
的
,前一次迭代
的
输出被用作新迭代
的
输入(参见下面的简单示例)。然而,如果我执行下面给出
的
代码,我看到
的
是
Dask
计算标准(由if
浏览 16
提问于2019-11-15
得票数 1
1
回答
分布式应用:提高小型数据传输
的
速度
、
、
我正在尝试使用
dask
将工作从web服务器卸载给工作人员,以便进行交互式数据分析应用程序。对于我
的
应用程序来说,简单
的
groupby()和mean()在
dask
上比
内存
中
的
pandas计算慢三倍。我知道这不是达斯克
的
目标。但是,我发现分发
的
dask
更适合在交互式应用程序
中
卸载数据(与不能交互
的
芹菜相比)。 除了
持久
化
之外,我还能做些什么来进一步提
浏览 0
提问于2019-12-02
得票数 0
1
回答
无法将
dask
_cudf数据加载和计算到活跃
的
表
中
,并看到一些与
内存
相关
的
错误。(cudaErrorMemoryAllocation
内存
不足)
、
、
、
、
发行:另一个观察是,当从cudf创建blazingSQL表时,表会被创建,但是没有记录。如果有人能给出一些建议来解决这个问题,那将是很有帮助
的
。Bl
浏览 4
提问于2021-04-29
得票数 0
2
回答
Dask
和numpy -在numpy
数组
和
dask
数组
之间
的
缓慢转换
、
、
、
我需要从一个大
的
numpy
数组
中保存一个
dask
数组
。下面是一个最小
的
工作示例,展示了该过程。请注意,a是使用numpy.random创建
的
,但不幸
的
是,我不能使用
dask
创建
数组
。= da.from_array( a, chunks = 100000)client.close() 我面临
的
问题是,<em
浏览 22
提问于2020-02-20
得票数 0
回答已采纳
1
回答
如何在
Dask
中有效地从DataFrame到多系列?
我正试图找到一种有效
的
方法,将DataFrame转换为
Dask
中
的
一组
持久
化
的
Series (列)。考虑这样一种情况,即数据大小要比工作
内存
之和大得多,而且大多数操作都将由从磁盘读取/溢出到磁盘进行包装。对于仅在单个列(或列对)上操作
的
算法来说,从磁盘
中
读取整个DataFrame对于每一列操作都是效率低下
的
。在这种情况下,最好将本地
的
DataFrame (可能是
持
浏览 4
提问于2017-07-06
得票数 2
回答已采纳
1
回答
在这个例子
中
到底发生了什么
、
、
、
、
我在tpc数据集
的
一个片段上用
dask
编写tpc查询6:lineitem = dd.read_csv("s3://tpc-h-csv/lineitem/lineitem.tblfiltered_df.l_discountprint(time.time() - start) 这是在
Dask
中
编写上述查询
的
最快方
浏览 3
提问于2022-01-24
得票数 0
回答已采纳
1
回答
在列上合并
dask
、
、
、
、
我有一个简单
的
脚本,目前写
的
熊猫,我想转换成达克数据格式。 在这个脚本
中
,我对用户指定
的
列上
的
两个数据文件执行合并,并试图将其转换为
dask
。如何将这一行更改为与
dask
数据格式匹配?
浏览 2
提问于2021-04-05
得票数 4
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券