Dask分布式-相同的持久化数据多个客户端_为Dask分布式客户端准备数据的最佳方式_持久存储多个客户端数据的安全方法 - 腾讯云开发者社区

dask、dask-distributed

我们正在尝试Dask Distributed来为前端做一些繁重的计算和可视化。现在，我们有了一个连接到现有分布式任务集群的gunicorn worker，该worker上传当前使用read_csv的数据，并将其持久化到集群中。我尝试过使用pickle来保存持久化数据帧中的未来，但它不起作用。我们希望有多个gunicorn工作线程，每个都有不同<e

浏览 17提问于2019-05-07得票数 3

1回答

分布式Dask Streamz

dask、dask-distributed

基于streamz ，可以通过以下方式利用dask分布式集群：client = Client('tcp://localhost:8786'.sink(write)) # call write locally source.emit(x) 从概念上讲，还不清楚为什么我们不需要传递dask分布式client作为参数来实例化Stream()。如果有两个调

浏览 4提问于2018-10-02得票数 2

回答已采纳

1回答

dask分布是否使用“龙卷风协同”来执行员工任务？

python、multithreading、tornado、coroutine、dask

它们为多个重叠请求提供服务，同时在不阻塞的情况下执行多个重叠计算。 分布式系统是否只对客户端/服务器通信使用旋风，并有单独的进程/线程来运行dask任务？实际

浏览 3提问于2016-10-04得票数 4

回答已采纳

1回答

用dask加载大型数据集

hdf5、dask

我所处的HPC环境中有集群、紧密耦合的互连和支持光泽的文件系统。我们一直在探索如何利用Dask不仅提供计算，而且充当一个分布式缓存，以加快我们的工作流。我们的专有数据格式是n维和规则的，我们编写了一个懒散的读取器，以传递给from_array/from_delayed方法。我们在Dask集群中加载和持久化比内存更大的数据</e

浏览 0提问于2018-06-11得票数 2

回答已采纳

2回答

为什么达斯克要花很长的时间来计算，而不管数据的大小

python、pandas、dask、dask-distributed、dask-dataframe

为什么dataframe需要很长的时间来计算，而不管数据的大小如何。如何避免这种情况发生？背后的原因是什么？我目前正在使用ml.c5.2x大型实例类型来开发AWS，数据位于S3桶中。我没有连接到客户端，因为我无法连接。，现在它是默认的。我用7690000 (~7M)在Pandas上执行了相同的操作，执行所需的时间是CPU时间:用户502 s，sys: 0 ns，总计: 502 s Wall time: 402

浏览 7提问于2022-03-24得票数 0

回答已采纳

1回答

为什么我的代码在Dask* Python中写CSV文件花了这么长时间*

python、pandas、dask、dask-distributed、dask-ml

下面是我的Python代码：创建一个100MB的

浏览 1提问于2019-01-17得票数 1

1回答

Dask dataframe groupby因类型错误而失败，但相同的pandas groupby成功

pandas、dask、geopandas、dask-delayed

我已经从地理熊猫期货创建了一个dask数据帧，每个数据帧产生一个熊猫数据帧，如下所示：所有数据类型似乎都是合理的left float64 data = np.array([en

浏览 3提问于2020-03-16得票数 0

1回答

将新对象放入Dask队列中

python、queue、dask、dask-distributed

我想使用Dask分布式队列与其他客户端共享一些数据。我想共享的数据是类数据的对象:在索引是列表的情况下，数据要么是dask集合的未来，后者的名称是字符串。data = None self.name = name 我使用register_generic注册这个要序列化<

浏览 1提问于2021-01-20得票数 0

回答已采纳

1回答

memcached客户端是否可以将关键数据分发到多个实例？

java、memcached、spymemcached

在对多个memcached实例进行测试的过程中，我意识到spymemcached Java客户端将关键数据均匀地分布在配置的实例中。我知道memcached是分布式的，但是有没有一种方法可以将客户端配置为将关键数据写入所有已配置的实例？我知道这样的内存缓存方法并不是为了取代持久存储(DB)而设计的，但是我对持久存储没有任何需求，需要一种轻量级<e

浏览 18提问于2019-02-08得票数 0

1回答

通过dask分布式和gensim有效使用多核

python、multithreading、dask、gensim、dask-distributed

我有一个很大的数据帧，不能放入内存。因此，我在Python语言中通过dask (分布式)访问它。我想根据数据帧中一列的条目，用gensim包训练一个Word2Vec/Doc2Vec模型，这就是为什么我构建了一个像this question一样的迭代器。现在，gensim使用多个内核进行训练，我需要指定其数量，类似地，dask也允许我使用多个内核。到目前为止，我把所有可用的内核都给了

浏览 21提问于2020-01-14得票数 0

1回答

多个工作流可以在不同的客户端进程之间重用持久化DataFrames吗？

dask

我有一系列的数据准备工作，由外部系统控制(计划、启动、监视等)。job2能否访问由job1持久化的DataFrames？如果是这样的话，是怎么做的？

浏览 2提问于2019-08-28得票数 1

回答已采纳

2回答

如何在dask/distributed中存储工作局部变量

python、distributed、dask

使用dask 0.15.0，分布式1.17.1。我想要记住每个工作人员的一些事情，比如访问google云存储的客户端，因为实例化它的成本很高。我更愿意将其存储在某种worker属性中。做这件事的规范方法是什么？或者，全球化是未来的发展方向吗？

浏览 3提问于2017-07-10得票数 8

1回答

如何在dask分布式集群中使用dask_ml预处理

dask、dask-distributed、dask-delayed、dask-dataframe、dask-ml

如何在dask分布式集群中进行dask_ml预处理？我的数据集大约是200‘s，每次我对准备用于OneHotEncoding的数据集进行分类时，似乎dask忽略了客户端，并尝试将数据集加载到本地计算机的内存中。也许我错过了一些东西： from sklearn.l

浏览 10提问于2021-07-09得票数 0

1回答

在GCP集群上运行Dask脚本

google-cloud-platform、dask

我是#GCP的新手，我的问题可能看起来微不足道(很抱歉)。我已经使用Dask开发了我的python代码的分布式版本。现在，我将在#Google_Cloud上检查代码的可伸缩性和性能。但我的问题是，我不知道如何在集群上运行我的python-dask脚本。据我所知，我应该在dataproc上创建一个初始化脚本，我知道如何设置一个初始化脚本来安装conda或其他软件或库，但是以这种方式编

浏览 10提问于2019-02-09得票数 0

1回答

如何使用xgboost.dask和gpu以分布式和批处理的方式建模一个非常大的数据集？

python、dask、xgboost、dask-distributed、rapids

我想使用分布在许多节点上的多个GPU来使用3 在中的一个非常大的数据集上训练一个模型。数据集大小超过VRAM和RAM大小时，持久化到达克，但舒适适合在磁盘上。但是， (至少在默认情况下)。所有数据预处理都已经处理过(一种使用np.bool数据类型的热编码)，人们可以假设我在其他地方拥有最有效的数据类型(例如，对于十进制特性将np.float64更改为np.floa

浏览 1提问于2020-07-02得票数 2

1回答

如何将多个客户端与一个共享数据库(JPA)同步？

java、jpa、jms、data-synchronization

关于共享公共数据库的多个客户端的同步的基本概念，我有一个非常重要的问题：我计划使用Java和JPA设计一个分布式应用程序来实现持久性。假设我有一个托管所有企业数据的中央数据库，并且多个客户端连接到此数据库以查询数据，那么保持特定客户端同步(通过数据库中的<

浏览 0提问于2012-03-09得票数 1

回答已采纳

1回答

为什么dask读取sql表有时会慢下来？

python、sql、performance、dask、fastapi

当通过FastAPI查询数据时，有时查询速度会增加一倍以上。 "mssql+pyodbc", df = df.compute() return df 以下是FastAPI部件

浏览 2提问于2021-12-14得票数 1

回答已采纳

1回答

dask分布式数据模型上的慢len函数

python、performance、dataframe、dask

我一直在测试如何使用dask (有20个核心的集群)，我对调用len函数和切片遍历loc的速度感到惊讶。import dask.dataframe as ddclient = Client('192.168.1.220:8786')所有的绿色框都与"from_pandas“相对应，而在Matthew 的这篇文章中，调用图看起来更好(调用len_chunk的速度要快得多

浏览 2提问于2017-01-27得票数 15

回答已采纳

1回答

我正在使用Dask，将Datashader用于dataviz而不是Python中的经典Seaborn有什么好处呢？

python、dask

这是我第一次使用Dask开发机器学习模型，但是在分割数据之前，我必须生成一些基本描述性统计的可视化。我曾经读过，Datashader在与Dask一起工作时比Seaborn“平滑”。我不明白是什么使这个库在与Dask并行化时最优。在业绩方面有什么实质性的优势吗？顺便说一句，我正在使用descriptive ()方法来计算描述性统计数据。提前谢谢。

浏览 6提问于2022-07-01得票数 -1

2回答

在WF4.0中使用PersistenceIOParticipant时如何避免DTC？

workflow-foundation-4、msdtc

我使用WF4.0中的PersistenceIOParticipant将一些内容与工作流实例的持久化一起保存到数据库中。我不知道如何使用相同的连接对象和工作流持久化，我被迫使用分布式事务。

浏览 1提问于2011-12-08得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云