腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
dask
数据
帧
处理
速度
是否
随着
工作
进程
数量
的
增加
而
线性
增加
?
、
、
您好,我是
dask
dataframe
的
新手,正在研究它如何通过分布式计算来改善
处理
时间。%Y-%m-%d %H:%M:%S', time.localtime(end_time))) print(end_time - start_time, 'secs') 结果如下 分布式1台服务器,1个
工作
进程
22.344669342041016秒 分布式2台服务器,1个worker/服务器11.367061614990234秒 分布式3台服务器,1个worker/服务
浏览 54
提问于2021-04-30
得票数 0
1
回答
dask
性能
随着
传递给
dask
.compute
的
延迟对象
数量
的
增加
而降低,其中scheduler='processes‘
、
、
当我创建一个延迟任务列表并将它们提交给计算时,
随着
列表中条目
数量
的
增加
,
dask
的
性能会下降。 当我
增加
列表中元素
的
数量
时,我看到总体运行时间明显
增加
。我希望
dask
能在一定程度上提高性能,但显然有一些我不理解
的
地方。我有10个
数据
目录,每个目录包含40个文件。我将一组解析器应用于文件以生成我
的
输出。每个解析器将文件读取到pandas
数据
浏览 23
提问于2019-04-25
得票数 1
1
回答
Dask
distributed -创建
工作
者
的
指南
、
我刚接触
dask
,在设置
dask
分布式集群时,我不确定这样做
的
最佳实践是什么。在设置
工作
进程
时,让两个
工作
进程
都有4 1GB
的
内存,还是让8个
工作
进程
都有1 1GB
的
内存更有效率?它会根据要
处理
的
数据
而
变化吗?我们有大约5-10 be
的
拼图格式
的
数据
需要
处理
浏览 12
提问于2019-08-14
得票数 1
1
回答
multiprocessing.Pool缩放
、
、
我想知道为什么我
的
CPU负载这么低,即使我没有得到很高
的
处理
速度
:from multiprocessing import Poolfromprint(str(i) + '|' + str(i / (time.time() - start))[:6] + ' samples / second')我使用
的
是multiprocessing.Pool
的
浏览 3
提问于2017-05-04
得票数 0
1
回答
调整
dask
分区
的
大小可以提高
速度
吗?
、
我有一个包含2700个分区
的
dask
数据
帧
。每个分区约为1Mln行。我想用unique()函数查找其中一列中
的
所有唯一值。如果我在此
数据
集上执行df.repartition以减少分区
数量
并
增加
分区大小,
是否
会提高
速度
?
浏览 14
提问于2019-10-30
得票数 0
1
回答
卡桑德拉什么时候达到了Amdahl定律?
我试图理解Cassandra
随着
节点
数量
线性
扩展
的
说法。在网上快速浏览一下,我没有看到太多关于这个主题
的
处理
。当然,Cassandra中有串行
处理
元素,它必须限制
随着
N
的
增加
而
获得
的
速度
。任何关于这个主题
的
想法,指针或链接都将不胜感激。我正在做一个项目,它有一个1,000+节点卡桑德拉基础设施的当前请求。我没有想出这个规范。
浏览 0
提问于2012-01-13
得票数 7
回答已采纳
1
回答
更快地完成sidekiq队列
、
、
现在,我已经到了一个需要等待队列完成
的
位置,因为新
的
作业被添加到了该队列中。克服这一问题
的
最佳选择是什么。谢谢
浏览 4
提问于2014-01-27
得票数 0
回答已采纳
1
回答
JMS -异步
处理
-
处理
父/子
进程
依赖项
、
、
、
、
问题:我有一个
进程
请求启动,它分解为多个级别的队列/MDB,以通过并行来加快
处理
速度
。问题是,什么是最好
的
方法来知道什么时候每一级别的
处理
是完成
的
,以完成一个关闭过程?技术栈: 此解
浏览 3
提问于2014-09-05
得票数 0
2
回答
性能问题:一个比较多线程和多
处理
的
案例研究
、
、
有一个主程序,它为
工作
人员填充一个
工作
队列,然后从结果队列中收集结果。 4.1。从- 10名工人有一个几乎
线性
的
速度
,无论是多线程和多
处理
。从10人
增加<
浏览 7
提问于2014-10-11
得票数 4
1
回答
subprocess.Popen()性能
随着
进程
数量
的
增加
而降低
、
、
我注意到,
随着
仲裁器产生更多
的
进程
,从subprocess.Popen()调用返回
的
时间以相当
线性
的
速度
增加
。,end_tm-start_tm
的
打印
数量
也在
增加
。时间
的
增加
不是完全
线性
的
,但我一直看到一个模式:第一个过程需要大约0.005秒才能产生,第10个过程需要大约0.125秒,第20个过程需要大约0.35秒,依此类推。一个
浏览 0
提问于2018-04-13
得票数 0
1
回答
Vibe.D
是否
采用多线程来
处理
并发请求?
、
、
、
、
我知道Vibe.D实现是基于Fibers
的
。但我不知道Vibe.D如何
处理
高负载场景。是Vibe.D中
的
调度器在多个线程上分配纤程,还是只为所有纤程分配一个线程?这个注意事项非常重要,因为即使使用Fibers
的
高效率,也会浪费大量
的
CPU时间,只有一个线程用于
处理
所有传入
的
请求。
浏览 3
提问于2016-07-04
得票数 1
3
回答
禁用wp-所有导入wordpress插件中
的
重复post检查
、
我正在使用wp所有导入wordpress插件从csv文件导入文章到我
的
wordpress博客。该文件有10000多个帖子,问题是
随着
数据
库大小
的
增加
插件发布
速度
变慢,或者如果它发布了大约1000个帖子,那么发布
的
帖子
数量
就会减少到
进程
开始时
的
四分之一。
是否
有可能防止插件重复检查?或者,我可以将从wordpress
数据
库读取
的
数据
限制为100个帖
浏览 9
提问于2015-03-29
得票数 5
2
回答
在
Dask
仪表板中进行100%
的
Dask
DF操作后,需要很长时间
、
、
我正在使用大型CSV (~60 in;~250M行)和
Dask
in Jupyter。 加载DF后,我要做
的
第一件事是连接两个字符串列。我可以成功地做到这一点,但是我注意到单元执行时间似乎并没有
随着
工作
进程
数量
的
增加
而
减少(我在一台具有64个逻辑核心
的
机器上尝试了5、10和20 )。如果说有什么不同的话,那就是每五个左右
的
工人似乎就会
增加
一分钟
的
执行时间。 同时,
浏览 21
提问于2021-07-23
得票数 1
回答已采纳
1
回答
云
数据
流-
增加
JVM Xmx值
、
、
我们正在尝试
处理
来自Big Query表
的
6.1亿条记录,并将
处理
后
的
记录写入12个不同
的
输出(主输出+ 11个副输出)。我们已经尝试将我们
的
实例
数量
增加
到64个n1-standard-4实例,但是我们仍然遇到这个问题。虚拟机上
的
XMX值似乎设置为~4 4GB(-Xmx3951927296),即使实例具有15 4GB内存也是如此。有什么方法可以
增加
Xmx
的
值吗?
浏览 0
提问于2015-06-12
得票数 6
1
回答
Google Cloud ML在召回中
的
损失:分布式学习
、
我有两个在Google Cloud ML上训练
的
模型版本,一个使用2个worker,另一个只使用主节点。然而,在分布式模式下训练后,召回率会显着下降。我遵循了大约2000个步骤提供
的
示例(工人和大师都参与了这些步骤)RECALL metrics: 0.352357320099 Accuracy over the validation set
浏览 4
提问于2016-10-18
得票数 1
1
回答
如果有超过10-20个节点,Javascript HTML canvas标记会强制有向图崩溃,否则会起作用
、
、
我面临
的
问题是,如果有超过10-20个节点,它就会崩溃!否则
工作
正常..有人能帮帮忙吗?
浏览 2
提问于2015-03-25
得票数 0
1
回答
由行
而
不是
数据
大小决定
的
Oracle
数据
传输速率
、
、
Oracle 11g中
是否
有可以节流从
数据
库中提取
的
行/秒
的
设置? 我们从Oracle加载
的
数据
非常慢。不管它
的
OPENQUERY、SSIS还是SQL Developer,似乎都不重要。我运行了一些测试,发现
随着
行数
的
增加
,传输时间以
线性
方式
增加
(90秒内
的
100 K行,903秒
的
1M行)。然后,我运行了另一个测试,其中行数保持不变(5
浏览 0
提问于2018-05-04
得票数 0
回答已采纳
1
回答
如何读取csv并使用
dask
处理
行?
、
、
、
、
我想读取一个28 to
的
csv文件,并打印内容。但是,我
的
代码:import sysfrom hashlib import md5 import
dask
.multiprocessing class IndexInKyoto当我运行命令htop时,我可以看到
dask
浏览 3
提问于2019-01-11
得票数 1
回答已采纳
1
回答
使用MMU实现可调整大小
的
数组
、
、
、
通常,列表被实现为链接列表(遍历
速度
较慢)或数组列表(插入元素时
速度
较慢)。我
的
问题是: 每个
浏览 2
提问于2017-01-06
得票数 15
回答已采纳
1
回答
处理
json
的
速度
比多核csv慢得多
、
我正在执行两个操作: DataFrame行计数和文本
数据
TFIDF
的
生成。我用1,2,4和8个核心尝试了这个手术。
随着
磁芯
的
增加
,基于csv
的
DataFrame
的
处理
速度
成比例
增加
,
而
基于json
的
处理
速度
保持不变。spark.read.format("json").option("header", &qu
浏览 4
提问于2017-10-06
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python数据预处理:使用Dask和Numba并行化加速
为Python正名:语言本身不是瓶颈,可能是外部资源出了问题
如何只用一行代码让 Pandas 加速四倍?
Python太慢了吗?
1977 年至 2017 年计算机延迟情况
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券