腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Dask
分布式
-
相同
的
持久
化
数据
多个
客户端
dask
、
dask-distributed
我们正在尝试
Dask
Distributed来为前端做一些繁重
的
计算和可视
化
。现在,我们有了一个连接到现有
分布式
任务集群
的
gunicorn worker,该worker上传当前使用read_csv
的
数据
,并将其
持久
化
到集群中。我尝试过使用pickle来保存
持久
化
数据
帧中
的
未来,但它不起作用。我们希望有
多个
gunicorn工作线程,每个都有不同<e
浏览 17
提问于2019-05-07
得票数 3
1
回答
分布式
Dask
Streamz
dask
、
dask-distributed
基于streamz ,可以通过以下方式利用
dask
分布式
集群:client = Client('tcp://localhost:8786'.sink(write)) # call write locally source.emit(x) 从概念上讲,还不清楚为什么我们不需要传递
dask
分布式
client作为参数来实例
化
Stream()。如果有两个调
浏览 4
提问于2018-10-02
得票数 2
回答已采纳
1
回答
dask
分布是否使用“龙卷风协同”来执行员工任务?
python
、
multithreading
、
tornado
、
coroutine
、
dask
它们为
多个
重叠请求提供服务,同时在不阻塞
的
情况下执行
多个
重叠计算。
分布式
系统是否只对
客户端
/服务器通信使用旋风,并有单独
的
进程/线程来运行
dask
任务?实际
浏览 3
提问于2016-10-04
得票数 4
回答已采纳
1
回答
用
dask
加载大型
数据
集
hdf5
、
dask
我所处
的
HPC环境中有集群、紧密耦合
的
互连和支持光泽
的
文件系统。我们一直在探索如何利用
Dask
不仅提供计算,而且充当一个
分布式
缓存,以加快我们
的
工作流。我们
的
专有
数据
格式是n维和规则
的
,我们编写了一个懒散
的
读取器,以传递给from_array/from_delayed方法。 我们在
Dask
集群中加载和
持久
化
比内存更大
的
数据</e
浏览 0
提问于2018-06-11
得票数 2
回答已采纳
2
回答
为什么达斯克要花很长
的
时间来计算,而不管
数据
的
大小
python
、
pandas
、
dask
、
dask-distributed
、
dask-dataframe
为什么dataframe需要很长
的
时间来计算,而不管
数据
的
大小如何。如何避免这种情况发生?背后
的
原因是什么?我目前正在使用ml.c5.2x大型实例类型来开发AWS,
数据
位于S3桶中。我没有连接到
客户端
,因为我无法连接。,现在它是默认
的
。我用7690000 (~7M)在Pandas上执行了
相同
的
操作,执行所需
的
时间是CPU时间:用户502 s,sys: 0 ns,总计: 502 s Wall time: 402
浏览 7
提问于2022-03-24
得票数 0
回答已采纳
1
回答
为什么我
的
代码在
Dask
Python中写CSV文件花了这么长时间
python
、
pandas
、
dask
、
dask-distributed
、
dask-ml
下面是我
的
Python代码:创建一个100MB
的
浏览 1
提问于2019-01-17
得票数 1
1
回答
Dask
dataframe groupby因类型错误而失败,但
相同
的
pandas groupby成功
pandas
、
dask
、
geopandas
、
dask-delayed
我已经从地理熊猫期货创建了一个
dask
数据
帧,每个
数据
帧产生一个熊猫
数据
帧,如下所示:所有
数据
类型似乎都是合理
的
left float64 data = np.array([en
浏览 3
提问于2020-03-16
得票数 0
1
回答
将新对象放入
Dask
队列中
python
、
queue
、
dask
、
dask-distributed
我想使用
Dask
分布式
队列与其他
客户端
共享一些
数据
。我想共享
的
数据
是类
数据
的
对象:在索引是列表
的
情况下,
数据
要么是
dask
集合
的
未来,后者
的
名称是字符串。data = None self.name = name 我使用register_generic注册这个要序列
化
<
浏览 1
提问于2021-01-20
得票数 0
回答已采纳
1
回答
memcached
客户端
是否可以将关键
数据
分发到
多个
实例?
java
、
memcached
、
spymemcached
在对
多个
memcached实例进行测试
的
过程中,我意识到spymemcached Java
客户端
将关键
数据
均匀地分布在配置
的
实例中。我知道memcached是
分布式
的
,但是有没有一种方法可以将
客户端
配置为将关键
数据
写入所有已配置
的
实例?我知道这样
的
内存缓存方法并不是为了取代
持久
存储(DB)而设计
的
,但是我对
持久
存储没有任何需求,需要一种轻量级<e
浏览 18
提问于2019-02-08
得票数 0
1
回答
通过
dask
分布式
和gensim有效使用多核
python
、
multithreading
、
dask
、
gensim
、
dask-distributed
我有一个很大
的
数据
帧,不能放入内存。因此,我在Python语言中通过
dask
(
分布式
)访问它。我想根据
数据
帧中一列
的
条目,用gensim包训练一个Word2Vec/Doc2Vec模型,这就是为什么我构建了一个像this question一样
的
迭代器。现在,gensim使用
多个
内核进行训练,我需要指定其数量,类似地,
dask
也允许我使用
多个
内核。到目前为止,我把所有可用
的
内核都给了
浏览 21
提问于2020-01-14
得票数 0
1
回答
多个
工作流可以在不同
的
客户端
进程之间重用
持久
化
DataFrames吗?
dask
我有一系列
的
数据
准备工作,由外部系统控制(计划、启动、监视等)。job2能否访问由job1
持久
化
的
DataFrames?如果是这样的话,是怎么做
的
?
浏览 2
提问于2019-08-28
得票数 1
回答已采纳
2
回答
如何在
dask
/distributed中存储工作局部变量
python
、
distributed
、
dask
使用
dask
0.15.0,
分布式
1.17.1。 我想要记住每个工作人员
的
一些事情,比如访问google云存储
的
客户端
,因为实例
化
它
的
成本很高。我更愿意将其存储在某种worker属性中。做这件事
的
规范方法是什么?或者,全球
化
是未来
的
发展方向吗?
浏览 3
提问于2017-07-10
得票数 8
1
回答
如何在
dask
分布式
集群中使用
dask
_ml预处理
dask
、
dask-distributed
、
dask-delayed
、
dask-dataframe
、
dask-ml
如何在
dask
分布式
集群中进行
dask
_ml预处理?我
的
数据
集大约是200‘s,每次我对准备用于OneHotEncoding
的
数据
集进行分类时,似乎
dask
忽略了
客户端
,并尝试将
数据
集加载到本地计算机
的
内存中。也许我错过了一些东西: from sklearn.l
浏览 10
提问于2021-07-09
得票数 0
1
回答
在GCP集群上运行
Dask
脚本
google-cloud-platform
、
dask
我是#GCP
的
新手,我
的
问题可能看起来微不足道(很抱歉)。我已经使用
Dask
开发了我
的
python代码
的
分布式
版本。现在,我将在#Google_Cloud上检查代码
的
可伸缩性和性能。但我
的
问题是,我不知道如何在集群上运行我
的
python-
dask
脚本。据我所知,我应该在dataproc上创建一个初始
化
脚本,我知道如何设置一个初始
化
脚本来安装conda或其他软件或库,但是以这种方式编
浏览 10
提问于2019-02-09
得票数 0
1
回答
如何使用xgboost.
dask
和gpu以
分布式
和批处理
的
方式建模一个非常大
的
数据
集?
python
、
dask
、
xgboost
、
dask-distributed
、
rapids
我想使用分布在许多节点上
的
多个
GPU来使用3 在中
的
一个非常大
的
数据
集上训练一个模型。
数据
集大小超过VRAM和RAM大小时,
持久
化
到达克,但舒适适合在磁盘上。但是, (至少在默认情况下)。所有
数据
预处理都已经处理过(一种使用np.bool
数据
类型
的
热编码),人们可以假设我在其他地方拥有最有效
的
数据
类型(例如,对于十进制特性将np.float64更改为np.floa
浏览 1
提问于2020-07-02
得票数 2
1
回答
如何将
多个
客户端
与一个共享
数据
库(JPA)同步?
java
、
jpa
、
jms
、
data-synchronization
关于共享公共
数据
库
的
多个
客户端
的
同步
的
基本概念,我有一个非常重要
的
问题: 我计划使用Java和JPA设计一个
分布式
应用程序来实现
持久
性。假设我有一个托管所有企业
数据
的
中央
数据
库,并且
多个
客户端
连接到此
数据
库以查询
数据
,那么保持特定
客户端
同步(通过
数据
库中
的
<
浏览 0
提问于2012-03-09
得票数 1
回答已采纳
1
回答
为什么
dask
读取sql表有时会慢下来?
python
、
sql
、
performance
、
dask
、
fastapi
当通过FastAPI查询
数据
时,有时查询速度会增加一倍以上。 "mssql+pyodbc", df = df.compute() return df 以下是FastAPI部件
浏览 2
提问于2021-12-14
得票数 1
回答已采纳
1
回答
dask
分布式
数据
模型上
的
慢len函数
python
、
performance
、
dataframe
、
dask
我一直在测试如何使用
dask
(有20个核心
的
集群),我对调用len函数和切片遍历loc
的
速度感到惊讶。import
dask
.dataframe as ddclient = Client('192.168.1.220:8786')所有的绿色框都与"from_pandas“相对应,而在Matthew
的
这篇文章中,调用图看起来更好(调用len_chunk
的
速度要快得多
浏览 2
提问于2017-01-27
得票数 15
回答已采纳
1
回答
我正在使用
Dask
,将Datashader用于dataviz而不是Python中
的
经典Seaborn有什么好处呢?
python
、
dask
这是我第一次使用
Dask
开发机器学习模型,但是在分割
数据
之前,我必须生成一些基本描述性统计
的
可视
化
。我曾经读过,Datashader在与
Dask
一起工作时比Seaborn“平滑”。我不明白是什么使这个库在与
Dask
并行化时最优。在业绩方面有什么实质性
的
优势吗?顺便说一句,我正在使用descriptive ()方法来计算描述性统计
数据
。 提前谢谢。
浏览 6
提问于2022-07-01
得票数 -1
2
回答
在WF4.0中使用PersistenceIOParticipant时如何避免DTC?
workflow-foundation-4
、
msdtc
我使用WF4.0中
的
PersistenceIOParticipant将一些内容与工作流实例
的
持久
化
一起保存到
数据
库中。我不知道如何使用
相同
的
连接对象和工作流
持久
化
,我被迫使用
分布式
事务。
浏览 1
提问于2011-12-08
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
(新版完结无密)Python 分布式爬虫与 JS 逆向进阶实战
(新版)Python 分布式爬虫与 JS 逆向进阶实战-梦里有时终须有
尹立博:Python 全局解释器锁与并发
使用 Dask在Python 中进行并行计算
某大佬在微信群分享zookeeper原理
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券