腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Dask
在
单核
上
的
缓慢
计算
性能
python
、
dask
、
dask-distributed
很多if-then-else
的
东西,没有额外
的
IO代码。 我们从
Dask
获得
的
加速并不是很令人满意,所以我们仔细研究了
在
单个分区中
的
单个大项目(580MB
的
XML字符串)
上
的
原始执行
性能
。[0]) 输出(没有前后开销
的
时间)是: Direct Execution
Dask
Distributed
Das
浏览 22
提问于2020-01-09
得票数 0
1
回答
如何在Spark (Pyspark)中加速缓存?
apache-spark
、
caching
、
pyspark
、
apache-spark-sql
我使用Spark缓存对Pandas缓存进行基准测试,通过读取相同
的
文件(CSV)。具体地说,Pandas
的
速度要快3-4倍。 谢谢,提前说
浏览 26
提问于2020-01-28
得票数 0
1
回答
在
CSV数据解析
上
Dask
性能
缓慢
?
python
、
multithreading
、
performance
、
pandas
、
dask
我已经
在
一大堆文件上进行了大量
的
文本处理,包括大
的
CSV和大量
的
小XML文件。我经常使用多处理库
在
多个CPU
上
执行这些
计算
,但我已经爱上了
Dask
背后
的
想法,它在网上和同事中都得到了强烈
的
推荐。我在这里问了一个关于
Dask
性能
的
类似问题: 然而,当我
在
单个大型文件(
浏览 11
提问于2017-01-15
得票数 5
回答已采纳
1
回答
用
dask
等价物加快“中间”函数
的
速度
python
、
pandas
、
numpy
、
dask
我试图想出一种快速
的
方法,
在
dataframe中添加一个新列,其中所添加
的
值是基于条件
的
。有人向我推荐了一种使用numpy
的
方法,但它相对来说非常慢。目前,我正在加载一个11米行csv,添加了几个新
的
列谁有公式
计算
,并打印头尾
在
10秒以下。 下面是当前用于
缓慢
/麻烦函数
的
代码。我想知道是否有一种与
dask
相对应
的
方法,或者是否可以更好地构造numpy查询以提高
性能
浏览 2
提问于2019-10-06
得票数 0
1
回答
为什么包在‘延迟’慢慢来?
python
、
pandas
、
dataframe
、
performance
、
dask
然而,这样做似乎会带来
性能
成本。示例import
dask
df =
dask
.datasets.timeseries(f)(task).compute() # Takes ~3.5s on my machine 从仪表板
上
看,使f延迟似乎会使数据
的
实际处理更慢。也就是说,时间越长并不是f通过delaye
浏览 1
提问于2021-08-12
得票数 0
2
回答
单核
上
的
多线程
multithreading
、
performance
、
factorial
一个
计算
偶数
的
阶乘直到100,另一个
计算
奇数
的
阶乘。
在
单核
处理器
上
,我可以预期
在
执行时间上有哪些
性能
改进?
浏览 0
提问于2018-08-16
得票数 0
3
回答
相当于Python
的
dask
python
、
r
、
dask
R中是否有与Python
的
dask
相同
的
包?专门用于
在
一台机器
上
运行大于内存
的
数据集
上
的
机器学习算法。链接到Python
的
Dask
页面:
Dask
为分析提供了高级
的
并行性,为您喜欢
的
工具提供了规模
上
的
性能
。达斯克
的
调度器已经在世
浏览 1
提问于2018-06-27
得票数 13
1
回答
java程序
在
多核机器
上
的
性能
是如何提高
的
?
java
、
parallel-processing
、
multicore
关于程序
在
多核环境中
的
性能
,我有一个非常基本
的
问题。有没有一种
浏览 3
提问于2015-01-14
得票数 0
1
回答
AWS
计算
优化实例低多核
性能
multithreading
、
performance
、
amazon-web-services
、
amazon-ec2
我
在
两个AWS实例类型( c4.large和t2.media)
上
运行CPU基准测试(使用CPU-Z)。两者都有2个虚拟CPU。 对于t2.media实例,结果更符合预期:是什么导致了这
浏览 2
提问于2016-03-11
得票数 0
回答已采纳
1
回答
如何在HPC
上
安装
dask
-jobqueue
python
、
scikit-learn
、
dask
、
hpc
、
job-queue
我正在尝试
在
一台高
性能
计算
机(HPC)
上
使用
dask
-jobqueue。按照
dask
-jobqueue here
的
文档,我正在尝试使用以下代码将
dask
-jobqueue安装在HPC中
的
Jupyter Notebook
的
一个实例
上
: install
dask
-jobqueue-c conda-forge 但是我得到了以下错误: File "<ipython-in
浏览 29
提问于2020-07-12
得票数 0
回答已采纳
1
回答
Dask
广播
在
计算
图期间不可用
python
、
pandas
、
dask
、
dask-distributed
()['foo'].iloc[2]代替lookup['baz'].iloc[2]时,它工作得很好,但是:对于较大
的
输入数据帧实例,它似乎一次又一次地卡在from_pandas
上
。此外,看起来很奇怪
的
是,未来需要手动阻止(对于应用操作中
的
每一行,都需要一遍又一遍。有没有办法
在
将来每个工作节点
上
只阻塞一次?一个简单
的
改进可能是使用map_partitions,但只有
在
分区数量相当少
的
情况下,这才是可
浏览 13
提问于2019-05-11
得票数 1
回答已采纳
1
回答
为什么多处理比Pandas中
的
简单
计算
要慢?
python
、
pandas
、
multiprocessing
、
python-multiprocessing
、
dask
这与有关import
dask
.dataframe as ddimport
dask
.threaded: slave = pd.concat([slave] * 10, ignor
浏览 1
提问于2018-04-15
得票数 3
回答已采纳
2
回答
dask
性能
沿轴应用
dask
、
python-xarray
我正在尝试使用
dask
在
一个大型
的
高分辨率海洋模型数据集上
计算
随时间
的
线性趋势。 我遵循了这个示例(),发现apply_along_axis
的
语法更简单。我目前正在使用
dask
.array.apply_along_axis
在
一维数组
上
包装一个Dataarray函数,然后将生成
的
dask
数组打包到一个xarray中。使用top -u <username>建议
计算
不是并行执
浏览 0
提问于2017-11-16
得票数 2
1
回答
确定达斯克
计算
了多少次
python
、
dask
问题任何帮助都是非常感谢
的
。在有些情况下,
dask</e
浏览 1
提问于2018-11-13
得票数 2
回答已采纳
1
回答
使用多个
Dask
调度程序
dask
、
dask-distributed
我们使用
Dask
将
计算
任务分发到多个服务器。有1个
dask
-scheduler和5个
dask
-worker服务器。我
的
问题是:有没有办法可以使用多个
dask
-schedulers?我之所以这样问,是因为单
dask
调度器无法避免单点故障,有时,如果请求非常多,单调度器可能会成为
性能
的
瓶颈。 谢谢!
浏览 2
提问于2018-11-14
得票数 0
1
回答
Dask
DataFrames vs numpy.memmap
性能
python
、
numpy
、
dask
我已经开发了一个模型,它使用了几个大
的
三维数据集(1e7,10,1e5),并在这些数据集
的
切片上进行数百万次读取(和数千次写入)调用。到目前为止,我找到
的
进行这些调用
的
最好工具是numpy.memmap,它允许将最少
的
数据保存在内存中,并允许干净
的
索引和非常快速
的
直接在硬盘上调用数据。numpy.memmmap
的
缺点似乎是
性能
参差不齐--读取数组片段
的
时间
在
两次调用之间可能会有两个数量级
的<
浏览 29
提问于2020-10-14
得票数 0
回答已采纳
2
回答
为什么达斯克要花很长
的
时间来
计算
,而不管数据
的
大小
python
、
pandas
、
dask
、
dask-distributed
、
dask-dataframe
为什么dataframe需要很长
的
时间来
计算
,而不管数据
的
大小如何。如何避免这种情况发生?背后
的
原因是什么?我目前正在使用ml.c5.2x大型实例类型来开发AWS,数据位于S3桶中。16.22 GB )nrows = shape[0].compute()print(df.npartitions) 我尝试
在
24700000条记录(~27M)
上
执行
计算
,有23个分区
浏览 7
提问于2022-03-24
得票数 0
回答已采纳
2
回答
单核
Windows7
计算
机上
的
Node.js电子应用程序
在
文件I/O
上
速度较慢
javascript
、
node.js
、
windows
、
windows-7
、
electron
我
在
单核
windows7机器
上
运行一个电子应用程序。似乎每当我使用fs库执行几乎任何文件I/O时,电子进程
的
CPU峰值都会达到~100%,并且可能需要一分钟来执行文件I/O。一个特别慢
的
函数是fs.readFileAsync()。我正在读取
的
文件非常小,但似乎需要很长时间才能执行。我也
在
双核
的
Windows7、Windows8.1、Windows10和Ubuntu 15.10
上
运行过这段代码,这些操作系统都没有遇到
浏览 2
提问于2016-09-23
得票数 11
1
回答
dask
.array和gil锁中
的
循环
python
、
dask
GIL锁会显著降低以下代码
的
性能
吗?import numpy as npimport
dask
.sharedict as sharedict from itertools import如何为
dask
数组
上
的
函数设置上下文?我想使用默认
的
dask</e
浏览 4
提问于2017-12-23
得票数 0
回答已采纳
1
回答
并行化
Dask
聚合
python
、
pandas
、
dask
、
dask-distributed
、
dask-dataframe
在
this post
的
基础
上
,我实现了自定义模式公式,但在此函数上发现了
性能
问题。基本
上
,当我进入这个聚合时,我
的
集群只使用我
的
一个线程,这对
性能
不是很好。我正在对16k行
的
150多个属性(大部分是分类数据)进行
计算
,我认为我可以将这些属性拆分成单独
的
线程/进程,然后再将它们放回单个数据帧中。注意,这个聚合必须在两个列上,所以我可能会因为不能使用单个列作为索引而获得更差
的
浏览 29
提问于2020-06-13
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
和数传媒:区块链在隐私计算领域的突破进展缓慢
韩国在6G上的脚步远不像我们想的那么缓慢
Arm 与 x86 CPU 在云计算中的性能分析
滴滴在HBase性能与可用性上的探索与实践
Cinema RAW Light 编码在达芬奇上的制作流程和性能测试
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券