dask数据帧处理速度是否随着工作进程数量的增加而线性增加？

、、

您好，我是dask dataframe的新手，正在研究它如何通过分布式计算来改善处理时间。%Y-%m-%d %H:%M:%S', time.localtime(end_time))) print(end_time - start_time, 'secs') 结果如下分布式1台服务器，1个工作进程22.344669342041016秒分布式2台服务器，1个worker/服务器11.367061614990234秒分布式3台服务器，1个worker/服务

浏览 54提问于2021-04-30得票数 0

1回答

dask性能随着传递给dask.compute的延迟对象数量的增加而降低，其中scheduler='processes‘

、、

当我创建一个延迟任务列表并将它们提交给计算时，随着列表中条目数量的增加，dask的性能会下降。当我增加列表中元素的数量时，我看到总体运行时间明显增加。我希望dask能在一定程度上提高性能，但显然有一些我不理解的地方。我有10个数据目录，每个目录包含40个文件。我将一组解析器应用于文件以生成我的输出。每个解析器将文件读取到pandas数据

浏览 23提问于2019-04-25得票数 1

1回答

Dask distributed -创建工作者的指南

、

我刚接触dask，在设置dask分布式集群时，我不确定这样做的最佳实践是什么。在设置工作进程时，让两个工作进程都有4 1GB的内存，还是让8个工作进程都有1 1GB的内存更有效率？它会根据要处理的数据而变化吗？我们有大约5-10 be的拼图格式的数据需要处理

浏览 12提问于2019-08-14得票数 1

1回答

multiprocessing.Pool缩放

、、

我想知道为什么我的CPU负载这么低，即使我没有得到很高的处理速度：from multiprocessing import Poolfromprint(str(i) + '|' + str(i / (time.time() - start))[:6] + ' samples / second')我使用的是multiprocessing.Pool的

浏览 3提问于2017-05-04得票数 0

1回答

调整dask分区的大小可以提高速度吗？

、

我有一个包含2700个分区的dask数据帧。每个分区约为1Mln行。我想用unique()函数查找其中一列中的所有唯一值。如果我在此数据集上执行df.repartition以减少分区数量并增加分区大小，是否会提高速度？

浏览 14提问于2019-10-30得票数 0

1回答

卡桑德拉什么时候达到了Amdahl定律？

我试图理解Cassandra随着节点数量线性扩展的说法。在网上快速浏览一下，我没有看到太多关于这个主题的处理。当然，Cassandra中有串行处理元素，它必须限制随着N的增加而获得的速度。任何关于这个主题的想法，指针或链接都将不胜感激。我正在做一个项目，它有一个1,000+节点卡桑德拉基础设施的当前请求。我没有想出这个规范。

浏览 0提问于2012-01-13得票数 7

回答已采纳

1回答

更快地完成sidekiq队列

、、

现在，我已经到了一个需要等待队列完成的位置，因为新的作业被添加到了该队列中。克服这一问题的最佳选择是什么。谢谢

浏览 4提问于2014-01-27得票数 0

回答已采纳

1回答

JMS -异步处理-处理父/子进程依赖项

、、、、

问题：我有一个进程请求启动，它分解为多个级别的队列/MDB，以通过并行来加快处理速度。问题是，什么是最好的方法来知道什么时候每一级别的处理是完成的，以完成一个关闭过程？技术栈：此解

浏览 3提问于2014-09-05得票数 0

2回答

性能问题:一个比较多线程和多处理的案例研究

、、

有一个主程序，它为工作人员填充一个工作队列，然后从结果队列中收集结果。 4.1。从- 10名工人有一个几乎线性的速度，无论是多线程和多处理。从10人增加<

浏览 7提问于2014-10-11得票数 4

1回答

subprocess.Popen()性能随着进程数量的增加而降低

、、

我注意到，随着仲裁器产生更多的进程，从subprocess.Popen()调用返回的时间以相当线性的速度增加。，end_tm-start_tm的打印数量也在增加。时间的增加不是完全线性的，但我一直看到一个模式:第一个过程需要大约0.005秒才能产生，第10个过程需要大约0.125秒，第20个过程需要大约0.35秒，依此类推。一个

浏览 0提问于2018-04-13得票数 0

1回答

Vibe.D是否采用多线程来处理并发请求？

、、、、

我知道Vibe.D实现是基于Fibers的。但我不知道Vibe.D如何处理高负载场景。是Vibe.D中的调度器在多个线程上分配纤程，还是只为所有纤程分配一个线程？这个注意事项非常重要，因为即使使用Fibers的高效率，也会浪费大量的CPU时间，只有一个线程用于处理所有传入的请求。

浏览 3提问于2016-07-04得票数 1

3回答

禁用wp-所有导入wordpress插件中的重复post检查

、

我正在使用wp所有导入wordpress插件从csv文件导入文章到我的wordpress博客。该文件有10000多个帖子，问题是随着数据库大小的增加插件发布速度变慢，或者如果它发布了大约1000个帖子，那么发布的帖子数量就会减少到进程开始时的四分之一。是否有可能防止插件重复检查？或者，我可以将从wordpress数据库读取的数据限制为100个帖

浏览 9提问于2015-03-29得票数 5

2回答

在Dask仪表板中进行100%的Dask* DF操作后，需要很长时间*

、、

我正在使用大型CSV (~60 in；~250M行)和Dask in Jupyter。加载DF后，我要做的第一件事是连接两个字符串列。我可以成功地做到这一点，但是我注意到单元执行时间似乎并没有随着工作进程数量的增加而减少(我在一台具有64个逻辑核心的机器上尝试了5、10和20 )。如果说有什么不同的话，那就是每五个左右的工人似乎就会增加一分钟的执行时间。同时，

浏览 21提问于2021-07-23得票数 1

回答已采纳

1回答

云数据流-增加JVM Xmx值

、、

我们正在尝试处理来自Big Query表的6.1亿条记录，并将处理后的记录写入12个不同的输出(主输出+ 11个副输出)。我们已经尝试将我们的实例数量增加到64个n1-standard-4实例，但是我们仍然遇到这个问题。虚拟机上的XMX值似乎设置为~4 4GB(-Xmx3951927296)，即使实例具有15 4GB内存也是如此。有什么方法可以增加Xmx的值吗？

浏览 0提问于2015-06-12得票数 6

1回答

Google Cloud ML在召回中的损失:分布式学习

、

我有两个在Google Cloud ML上训练的模型版本，一个使用2个worker，另一个只使用主节点。然而，在分布式模式下训练后，召回率会显着下降。我遵循了大约2000个步骤提供的示例(工人和大师都参与了这些步骤)RECALL metrics: 0.352357320099 Accuracy over the validation set

浏览 4提问于2016-10-18得票数 1

1回答

如果有超过10-20个节点，Javascript HTML canvas标记会强制有向图崩溃，否则会起作用

、、

我面临的问题是，如果有超过10-20个节点，它就会崩溃！否则工作正常..有人能帮帮忙吗？

浏览 2提问于2015-03-25得票数 0

1回答

由行而不是数据大小决定的Oracle数据传输速率

、、

Oracle 11g中是否有可以节流从数据库中提取的行/秒的设置？我们从Oracle加载的数据非常慢。不管它的OPENQUERY、SSIS还是SQL Developer，似乎都不重要。我运行了一些测试，发现随着行数的增加，传输时间以线性方式增加(90秒内的100 K行，903秒的1M行)。然后，我运行了另一个测试，其中行数保持不变(5

浏览 0提问于2018-05-04得票数 0

回答已采纳

1回答

如何读取csv并使用dask处理行？

、、、、

我想读取一个28 to的csv文件，并打印内容。但是，我的代码：import sysfrom hashlib import md5 import dask.multiprocessing class IndexInKyoto当我运行命令htop时，我可以看到dask

浏览 3提问于2019-01-11得票数 1

回答已采纳

1回答

使用MMU实现可调整大小的数组

、、、

通常，列表被实现为链接列表(遍历速度较慢)或数组列表(插入元素时速度较慢)。我的问题是：每个

浏览 2提问于2017-01-06得票数 15

回答已采纳

1回答

处理json的速度比多核csv慢得多

、

我正在执行两个操作: DataFrame行计数和文本数据TFIDF的生成。我用1,2,4和8个核心尝试了这个手术。随着磁芯的增加，基于csv的DataFrame的处理速度成比例增加，而基于json的处理速度保持不变。spark.read.format("json").option("header", &qu

浏览 4提问于2017-10-06得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

dask性能随着传递给dask.compute的延迟对象数量的增加而降低，其中scheduler='processes‘

Dask distributed -创建工作者的指南

multiprocessing.Pool缩放

调整dask分区的大小可以提高速度吗？

卡桑德拉什么时候达到了Amdahl定律？

更快地完成sidekiq队列

JMS -异步处理-处理父/子进程依赖项

性能问题:一个比较多线程和多处理的案例研究

subprocess.Popen()性能随着进程数量的增加而降低

Vibe.D是否采用多线程来处理并发请求？

禁用wp-所有导入wordpress插件中的重复post检查

在Dask仪表板中进行100%的Dask* DF操作后，需要很长时间*

云数据流-增加JVM Xmx值

Google Cloud ML在召回中的损失:分布式学习

如果有超过10-20个节点，Javascript HTML canvas标记会强制有向图崩溃，否则会起作用

由行而不是数据大小决定的Oracle数据传输速率

如何读取csv并使用dask处理行？

使用MMU实现可调整大小的数组

处理json的速度比多核csv慢得多

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐