Dask在单核上的缓慢计算性能_在CSV数据解析上Dask性能缓慢？_Dask和numpy -在numpy数组和dask数组之间的缓慢转换 - 腾讯云开发者社区

python、dask、dask-distributed

很多if-then-else的东西，没有额外的IO代码。我们从Dask获得的加速并不是很令人满意，所以我们仔细研究了在单个分区中的单个大项目(580MB的XML字符串)上的原始执行性能。[0]) 输出(没有前后开销的时间)是： Direct ExecutionDask DistributedDas

浏览 22提问于2020-01-09得票数 0

1回答

如何在Spark (Pyspark)中加速缓存？

apache-spark、caching、pyspark、apache-spark-sql

我使用Spark缓存对Pandas缓存进行基准测试，通过读取相同的文件(CSV)。具体地说，Pandas的速度要快3-4倍。谢谢，提前说

浏览 26提问于2020-01-28得票数 0

1回答

在CSV数据解析上Dask性能缓慢？

python、multithreading、performance、pandas、dask

我已经在一大堆文件上进行了大量的文本处理，包括大的CSV和大量的小XML文件。我经常使用多处理库在多个CPU上执行这些计算，但我已经爱上了Dask背后的想法，它在网上和同事中都得到了强烈的推荐。我在这里问了一个关于Dask性能的类似问题：然而，当我在单个大型文件(

浏览 11提问于2017-01-15得票数 5

回答已采纳

1回答

用dask等价物加快“中间”函数的速度

python、pandas、numpy、dask

我试图想出一种快速的方法，在dataframe中添加一个新列，其中所添加的值是基于条件的。有人向我推荐了一种使用numpy的方法，但它相对来说非常慢。目前，我正在加载一个11米行csv，添加了几个新的列谁有公式计算，并打印头尾在10秒以下。下面是当前用于缓慢/麻烦函数的代码。我想知道是否有一种与dask相对应的方法，或者是否可以更好地构造numpy查询以提高性能

浏览 2提问于2019-10-06得票数 0

1回答

为什么包在‘延迟’慢慢来？

python、pandas、dataframe、performance、dask

然而，这样做似乎会带来性能成本。示例import daskdf = dask.datasets.timeseries(f)(task).compute() # Takes ~3.5s on my machine 从仪表板上看，使f延迟似乎会使数据的实际处理更慢。也就是说，时间越长并不是f通过delaye

浏览 1提问于2021-08-12得票数 0

2回答

单核上的多线程

multithreading、performance、factorial

一个计算偶数的阶乘直到100，另一个计算奇数的阶乘。在单核处理器上，我可以预期在执行时间上有哪些性能改进？

浏览 0提问于2018-08-16得票数 0

3回答

相当于Python的dask

python、r、dask

R中是否有与Python的dask相同的包？专门用于在一台机器上运行大于内存的数据集上的机器学习算法。链接到Python的Dask页面：Dask为分析提供了高级的并行性，为您喜欢的工具提供了规模上的性能。达斯克的调度器已经在世

浏览 1提问于2018-06-27得票数 13

1回答

java程序在多核机器上的性能是如何提高的？

java、parallel-processing、multicore

关于程序在多核环境中的性能，我有一个非常基本的问题。有没有一种

浏览 3提问于2015-01-14得票数 0

1回答

AWS计算优化实例低多核性能

multithreading、performance、amazon-web-services、amazon-ec2

我在两个AWS实例类型( c4.large和t2.media)上运行CPU基准测试(使用CPU-Z)。两者都有2个虚拟CPU。对于t2.media实例，结果更符合预期：是什么导致了这

浏览 2提问于2016-03-11得票数 0

回答已采纳

1回答

如何在HPC上安装dask-jobqueue

python、scikit-learn、dask、hpc、job-queue

我正在尝试在一台高性能计算机(HPC)上使用dask-jobqueue。按照dask-jobqueue here的文档，我正在尝试使用以下代码将dask-jobqueue安装在HPC中的Jupyter Notebook的一个实例上： install dask-jobqueue-c conda-forge 但是我得到了以下错误： File "<ipython-in

浏览 29提问于2020-07-12得票数 0

回答已采纳

1回答

Dask广播在计算图期间不可用

python、pandas、dask、dask-distributed

()['foo'].iloc[2]代替lookup['baz'].iloc[2]时，它工作得很好，但是:对于较大的输入数据帧实例，它似乎一次又一次地卡在from_pandas上。此外，看起来很奇怪的是，未来需要手动阻止(对于应用操作中的每一行，都需要一遍又一遍。有没有办法在将来每个工作节点上只阻塞一次？一个简单的改进可能是使用map_partitions，但只有在分区数量相当少的情况下，这才是可

浏览 13提问于2019-05-11得票数 1

回答已采纳

1回答

为什么多处理比Pandas中的简单计算要慢？

python、pandas、multiprocessing、python-multiprocessing、dask

这与有关import dask.dataframe as ddimport dask.threaded： slave = pd.concat([slave] * 10, ignor

浏览 1提问于2018-04-15得票数 3

回答已采纳

2回答

dask性能沿轴应用

dask、python-xarray

我正在尝试使用dask在一个大型的高分辨率海洋模型数据集上计算随时间的线性趋势。我遵循了这个示例()，发现apply_along_axis的语法更简单。我目前正在使用dask.array.apply_along_axis在一维数组上包装一个Dataarray函数，然后将生成的dask数组打包到一个xarray中。使用top -u <username>建议计算不是并行执

浏览 0提问于2017-11-16得票数 2

1回答

确定达斯克计算了多少次

python、dask

问题任何帮助都是非常感谢的。在有些情况下，dask</e

浏览 1提问于2018-11-13得票数 2

回答已采纳

1回答

使用多个Dask调度程序

dask、dask-distributed

我们使用Dask将计算任务分发到多个服务器。有1个dask-scheduler和5个dask-worker服务器。我的问题是:有没有办法可以使用多个dask-schedulers？我之所以这样问，是因为单dask调度器无法避免单点故障，有时，如果请求非常多，单调度器可能会成为性能的瓶颈。谢谢!

浏览 2提问于2018-11-14得票数 0

1回答

Dask DataFrames vs numpy.memmap性能

python、numpy、dask

我已经开发了一个模型，它使用了几个大的三维数据集(1e7，10，1e5)，并在这些数据集的切片上进行数百万次读取(和数千次写入)调用。到目前为止，我找到的进行这些调用的最好工具是numpy.memmap，它允许将最少的数据保存在内存中，并允许干净的索引和非常快速的直接在硬盘上调用数据。numpy.memmmap的缺点似乎是性能参差不齐--读取数组片段的时间在两次调用之间可能会有两个数量级的<

浏览 29提问于2020-10-14得票数 0

回答已采纳

2回答

为什么达斯克要花很长的时间来计算，而不管数据的大小

python、pandas、dask、dask-distributed、dask-dataframe

为什么dataframe需要很长的时间来计算，而不管数据的大小如何。如何避免这种情况发生？背后的原因是什么？我目前正在使用ml.c5.2x大型实例类型来开发AWS，数据位于S3桶中。16.22 GB )nrows = shape[0].compute()print(df.npartitions) 我尝试在24700000条记录(~27M)上执行计算，有23个分区

浏览 7提问于2022-03-24得票数 0

回答已采纳

2回答

单核Windows7计算机上的Node.js电子应用程序在文件I/O上速度较慢

javascript、node.js、windows、windows-7、electron

我在单核windows7机器上运行一个电子应用程序。似乎每当我使用fs库执行几乎任何文件I/O时，电子进程的CPU峰值都会达到~100%，并且可能需要一分钟来执行文件I/O。一个特别慢的函数是fs.readFileAsync()。我正在读取的文件非常小，但似乎需要很长时间才能执行。我也在双核的Windows7、Windows8.1、Windows10和Ubuntu 15.10上运行过这段代码，这些操作系统都没有遇到

浏览 2提问于2016-09-23得票数 11

1回答

dask.array和gil锁中的循环

python、dask

GIL锁会显著降低以下代码的性能吗？import numpy as npimport dask.sharedict as sharedict from itertools import如何为dask数组上的函数设置上下文？我想使用默认的dask</e

浏览 4提问于2017-12-23得票数 0

回答已采纳

1回答

并行化Dask聚合

python、pandas、dask、dask-distributed、dask-dataframe

在this post的基础上，我实现了自定义模式公式，但在此函数上发现了性能问题。基本上，当我进入这个聚合时，我的集群只使用我的一个线程，这对性能不是很好。我正在对16k行的150多个属性(大部分是分类数据)进行计算，我认为我可以将这些属性拆分成单独的线程/进程，然后再将它们放回单个数据帧中。注意，这个聚合必须在两个列上，所以我可能会因为不能使用单个列作为索引而获得更差的

浏览 29提问于2020-06-13得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云