腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
搜索
使用
dask
诊断
文件系统
性能
的
代码
片段
我想
诊断
一下
使用
dask
进行多次访问时
的
文件系统
性能
。有人会有这样做
的
代码
片段
吗? 上下文:在HPC平台上工作时,我
的
sysadmin要求我迁移到一个新
的
文件系统
,我怀疑它
的
性能
相当差。我
的
工作流程涉及分布式
dask
、netcdf和zarr文件处理。
浏览 11
提问于2020-05-08
得票数 1
1
回答
使用
Dask
从hdf5文件到numpy堆栈
的
写入时间长,读取时间短
、
、
、
、
我正在用
Dask
做一个实验,这有点复杂,所以我不能真正提供
代码
片段
。本实验
使用
只有一个线程('single-thread')
的
Dask
线程调度器从单个hdf5文件加载一个大小约为5 5GB
的
数组,并
使用
dask
数组
的
to_npy_stack方法将其写回到50个npy文件中读写都是在HDD上完成
的
,因此我选择
使用
一个线程。正如我们在下图中所看到
的
浏览 14
提问于2019-12-13
得票数 0
1
回答
苹果Modin[
dask
] M1芯片
、
、
、
我已经在我
的
Apple M1芯片MacBook Pro上成功地安装了带有conda
的
modindask,但是当我运行
代码
时,我得到了以下错误:
dask
2022.5.0pandas
浏览 9
提问于2022-05-20
得票数 0
4
回答
浏览文件或通过blobs运行类似%x%查询
的
SQL,哪个通常更快?
、
、
、
假设我正在设计一个工具,它可以将
代码
片段
保存在PostgreSQL/MySQL数据库或
文件系统
中。我想
搜索
一下这些
代码
片段
。
使用
像Sphinx这样
的
搜索
引擎似乎不切实际,因为我们在
搜索
代码
时需要
代码
的
精确文本匹配。 grep和ack,一直都运行得很好,但将数据存储在数据库中会使大量数据在某些方面更易于管理。我想知道在目录树上递归运行grep
的</
浏览 0
提问于2011-05-08
得票数 8
回答已采纳
1
回答
插件或小部件应该在哪里缓存其结果?
、
插件应该在哪里缓存其可重用
的
结果?我知道有一些插件可以进行缓存。假设我不想
使用
插件。我发现依赖
文件系统
缓存结果很容易维护、
诊断
和
性能
。 有一个好<em
浏览 0
提问于2012-06-15
得票数 1
回答已采纳
1
回答
基于
Dask
的
并行学习
、
、
Scikit--学习已经在一台机器上提供了Joblib
的
并行计算。client = Client() 我怎么才能从这开始?
浏览 2
提问于2018-06-05
得票数 3
回答已采纳
1
回答
理解
Dask
的
任务流
、
我在8核
的
机器上
使用
分布式调度器在本地运行
dask
。在初始化时,我看到:这看起来是正确
的
,但我被
诊断
中
的
任务流搞糊涂了(如下所示): 我期望8行对应于8个工作者/核心,是不是不正确?谢谢我添加了我正在运行
的
代码
:from
dask
.distributed import Client, progress client
浏览 0
提问于2018-11-14
得票数 1
1
回答
用
dask
加载大型数据集
、
我所处
的
HPC环境中有集群、紧密耦合
的
互连和支持光泽
的
文件系统
。我们一直在探索如何利用
Dask
不仅提供计算,而且充当一个分布式缓存,以加快我们
的
工作流。我们
的
专有数据格式是n维和规则
的
,我们编写了一个懒散
的
读取器,以传递给from_array/from_delayed方法。 我们在
Dask
集群中加载和持久化比内存更大
的
数据集时遇到了一些问题。
使用
hdf5
的</em
浏览 0
提问于2018-06-11
得票数 2
回答已采纳
2
回答
Python/
Dask
支持
的
分布式
文件系统
、
、
、
、
Dask
支持哪些分布式
文件系统
?具体来说,您可以从哪个
文件系统
中读取
dask
.dataframe?从
Dask
文档中,我可以看到HDFS当然是受支持
的
。是否支持任何其他分布式
文件系统
,如Ceph等?我可以在这里找到一些关于支持其他
文件系统
的
想法
的
讨论:,但没有最后
的
结论,只是HDFS比其他选项“更糟糕”。 谢谢你
的
帮助!
浏览 3
提问于2018-05-11
得票数 3
回答已采纳
1
回答
使用
dask
as进行任务调度以并行运行机器学习模型
、
、
、
、
所以基本上我想要
的
是并行运行ML流水线。我一直在
使用
scikit learn,我决定
使用
DaskGridSearchCV。对象,我希望尽可能多地利用所有可用
的
资源。因此,我开始尝试基于
dask
的
文档
的
一些东西。首先,我尝试了
dask
.threaded和
dask
.multiprocessing,但它最终变得更慢,我不断得到: /Library/Python/2.7/site-packages
浏览 0
提问于2017-05-08
得票数 5
2
回答
将tqdm与延迟执行与python中
的
dask
相结合
、
、
tqdm和
dask
都是python中令人惊奇
的
迭代包。虽然tqdm实现了所需
的
进度条,但
dask
实现了多线程平台,它们都可以减少迭代过程
的
沮丧。但是-我很难把两者结合在一起。例如,下面的
代码
在
dask
中
使用
tqdm.trange进度条实现延迟执行。问题是,由于delayed执行得很快,进度条立即结束,而真正
的
计算时间则是在compute部分期间完成
的
。from
dask
import delayed
浏览 3
提问于2017-06-11
得票数 8
回答已采纳
1
回答
Dask
DataFrames vs numpy.memmap
性能
、
、
我已经开发了一个模型,它
使用
了几个大
的
三维数据集(1e7,10,1e5),并在这些数据集
的
切片上进行数百万次读取(和数千次写入)调用。到目前为止,我找到
的
进行这些调用
的
最好工具是numpy.memmap,它允许将最少
的
数据保存在内存中,并允许干净
的
索引和非常快速
的
直接在硬盘上调用数据。numpy.memmmap
的
缺点似乎是
性能
参差不齐--读取数组
片段
的
时间在两次调用之间可能会有两个
浏览 29
提问于2020-10-14
得票数 0
回答已采纳
1
回答
Dask
包
的
运行速度比串行计算慢得多
、
下面是我
的
测试
代码
: import numpy as npfrom
dask
.distributed import Client, LocalClustertest_array = np.random.randn(2000000) 然后,我
使用
串行和并行计算来执行此工作流。但是对于
使用
dask
.bag
的
并行计算
浏览 17
提问于2021-08-25
得票数 0
1
回答
性能
:一个文件夹中有10.000个文件,多个文件夹中有10.000个文件
、
在我
的
网页空间中,我有一个包含10.0000张图片
的
文件夹。 如果我把它们组织在子文件夹中,
性能
会有什么不同吗?
浏览 0
提问于2020-03-28
得票数 1
回答已采纳
2
回答
python
dask
包是否像掩码数组一样支持numpy?
、
、
有没有一种方法可以
使用
Python包来模拟掩码数组,并考虑掩码进行计算,就像在Numpy中一样:mdata = np.ma.masked_where(data == value, data) 在软件包文档中,我只找到了
dask
.arrays此外,
使用
另一个数组进行切片似乎也是不可能
的
。因此,我找不到一种只对数组
的
一部分进行
浏览 0
提问于2016-12-06
得票数 1
1
回答
Dask
dataframe str.contains(regex=True)不比pandas快
、
、
、
我有一个熊猫数据帧,我想在其中进行正则表达式
搜索
:我假设这可以与
Dask
并行化,但它不会带来
性能
改进:ddf = dd.from_pandas(df, npartitions=8)
dask
.config.set(scheduler=
dask
.multiprocessi
浏览 16
提问于2019-10-31
得票数 1
1
回答
如何在HPC上安装
dask
-jobqueue
、
、
、
、
我正在尝试在一台高
性能
计算机(HPC)上
使用
dask
-jobqueue。按照
dask
-jobqueue here
的
文档,我正在尝试
使用
以下
代码
将
dask
-jobqueue安装在HPC中
的
Jupyter Notebook
的
一个实例上: install
dask
-jobqueue-c conda-forge 但是我得到了以下错误: File "<ipython-input-10-ca
浏览 29
提问于2020-07-12
得票数 0
回答已采纳
1
回答
如何在
Dask
中写入弹性数据库?
、
、
、
、
如何在
Dask
中将计算后
的
数据写入Elastic DB?就像我需要SQL DB和Elasticsearch中
的
计算输出一样。
浏览 7
提问于2019-11-13
得票数 0
回答已采纳
1
回答
为什么我
的
代码
在
Dask
Python中写CSV文件花了这么长时间
、
、
、
、
下面是我
的
Python
代码
:创建一个1
浏览 1
提问于2019-01-17
得票数 1
1
回答
当追加多个列时,如何解释DataFrame.assign(**kwargs)和dd[x]=y在
Dask
中
的
性能
差异?
、
、
、
在将一些
代码
从Pandas迁移到
Dask
时,我发现通过
使用
多列调用DataFrame.assign()来修改
Dask
数据帧与
使用
多个DataFrame.__setitem__() (也称为dataframe[x]=y)调用来修改它之间存在巨大
的
性能
差异。
使用
导入对于定义如下
的
Dask
数据帧: dd =
dask
.data
浏览 3
提问于2020-04-16
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
使用 pss 搜索你的代码
使用 pss 提升你的代码搜索能力
2021 最佳开源软件榜单出炉,Flutter、StreamNative 上榜
Python数据预处理:使用Dask和Numba并行化加速
5TinyShareweb性能101;如何使用模块结构组织CSS代码;IOS 12.1中的emoji变更……
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券