是否可以使用dask.compute将dask.DataFrame.categorize与另一个dask计算结合起来？

python、dask、dask-distributed

我有一个小型的Dask自定义应用程序(DAG中的20个节点)。我希望能够在某种程度上坚持这些职能的所有中间结果，以便将来进行检查，因为有时我们想知道我们为什么得出最后的答案。除了在返回函数之前将结果推送到Redis (或类似的东西)之外，Dask内部是否有其他好的模式呢？

浏览 0提问于2018-09-24得票数 1

回答已采纳

2回答

嵌套的dask.compute不阻塞

python、dask、dask-distributed、dask-delayed

dask.compute(...)应该是一个阻塞调用。然而，当我嵌套了dask.compute，并且内部的dask.compute执行I/O (如dask.dataframe.read_parquet)时，内部的and不是阻塞的。下面是一个伪代码示例： import dask, distributed def outer_func(name): files = find_files_for_name(name) df = inner_func(files).compute() # do work with df return result def inner

浏览 11提问于2017-08-10得票数 0

1回答

存储在dataframe中的计算dask延迟对象

python-3.x、pandas、dask、dask-delayed

我正在寻找最好的方法来计算存储在数据帧中的许多dask delayed指令。我不确定是否应该将pandas数据帧转换为包含delayed对象的dask数据帧，或者是否应该对pandas数据帧的所有值调用compute调用。我非常感谢大家的建议，因为我在通过嵌套的for循环传递delayed对象的逻辑上遇到了问题。 import numpy as np import pandas as pd from scipy.stats import hypergeom from dask import delayed, compute steps = 5 sample = [int(x) for x

浏览 10提问于2019-08-10得票数 0

1回答

计算具有共同依赖关系的两个值时，Dask高内存使用率

python、dask、dask-distributed、dask-delayed

我在一台机器上使用Dask (LocalCluster有4个进程，16个线程，68.56 to内存)，当我试图一次计算两个共享依赖关系的结果时，遇到了工作内存问题。在下面显示的示例中，仅用一次计算就可以很好地快速计算result，工作人员的总内存使用量最高可达1 1GB左右。但是，当使用两次计算来计算results时，当总内存使用量约为40 is时，工作人员会迅速耗尽所有内存，并开始写入磁盘。计算最终将完成，但一旦开始写入磁盘，就会有一个巨大的减速。直观地说，如果读入一个块，然后立即计算它的两个和，那么该块可以被丢弃，并且内存使用率保持在较低水平。然而，看起来Dask正在优先加载数据，而不

浏览 18提问于2021-02-27得票数 2

回答已采纳

1回答

从Dask数组中选取大量切片的最佳方法

dask、dask-distributed

我正在使用Dask数组生成分布在几个节点中的大型(65kx65kx3) 3D信号。在下一步中，我需要使用存储在Dask包中的切片从这个数组中提取几千个瓦片。我的代码如下所示： import dask.array as da import dask.bag as db from dask.distributed import Client def pick_tile(window, signal): return np.array(surface[window]) def computation_on_tile(signal_tile): # do some rather s

浏览 16提问于2020-01-15得票数 1

1回答

计算()在dask中做什么？

python、dask

我对dask并不熟悉，也不知道dask中计算()方法到底做了什么？它是一种打印对象的方法吗？我从它的网站上读过文档，不确定我是否理解“具体价值”和“懒惰的达克”这两个术语。 --您可以通过调用.compute()方法或dask.compute(.)将任何dask集合转换为具体值函数。这个函数将被阻塞，直到计算完成，直接从一个懒惰的dask集合到本地内存中的一个具体值。我所说的“这是一种打印对象的方法吗？”也就是说，当我创建一个dask对象并在spyder控制台中调用它时，它会产生dask.array<arange, shape=(11,), dtype=int32, chunksi

浏览 5提问于2019-11-05得票数 0

回答已采纳

1回答

如何避免将dask任务内部任务提交给主调度程序

dask、dask-distributed

文档显示，dask.compute在dask中的默认行为是在主调度程序上启动任务。我的愿望是不启动主调度程序。我的任务是执行两个步骤:使用非python二进制文件处理复制到本地磁盘上的0.1-1.0TB数据，然后使用dask将数据转换并写入zarr存储。二进制文件是多线程的，我还想在本地使用多进程或多线程本地方式的dask。对于这个工作人员，我使用一台多核机器，但只为dask工作者保留了一个线程。我相信这意味着我的任务可以使用机器上的所有核心来完成上述两个步骤。这是一个可行的模型吗?我如何称呼compute (distributed.Client().compute似乎不起作用)？还有其

浏览 5提问于2020-02-11得票数 1

回答已采纳

3回答

如何将dask.dataframe与自定义dsk图一起使用

python、dask

我将尝试重新表述我的问题：如何将dask.dataframe与zip这样的函数结合起来？假设我们有一个名为"accounts.0.csv“的文件，其中包含以下数据 id,names,amount 352,Dan,4837 387,Tim,208 42,Jerry,21 129,Patricia,284 我写了这段代码 import dask.dataframe as dd import itertools from dask.threaded import get df = dd.read_csv('accounts.0.csv') dsk = {'a

浏览 5提问于2015-10-21得票数 2

回答已采纳

2回答

使用Dask导入大型CSV文件

python、dataframe、dask、dask-dataframe、vaex

我正在使用Dask导入一个非常大的csv文件，大约680 am，然而，输出并不是我所期望的。我的目标是只选择一些列(6/50)，并可能过滤它们(这一点我不确定，因为似乎没有数据？)： import dask.dataframe as dd file_path = "/Volumes/Seagate/Work/Tickets/Third ticket/Extinction/species_all.csv" cols = ['year', 'species', 'occurrenceStatus', 'individual

浏览 6提问于2021-07-03得票数 3

1回答

在对单个数据帧进行计算后，使用Dask返回多个数据帧

python-3.x、pandas、dask

有没有办法获取一个DataFrame (最初在Pandas中，用不同的随机种子对其进行采样，并使用Dask返回几个数据帧(每个随机种子一个)。我对Dask非常原始的理解是，我可以获取一个Dataframe，拆分它，然后在它上面进行计算，但我想知道我是否可以使用Dask来解决这个问题。

浏览 19提问于2019-06-28得票数 0

回答已采纳

1回答

在内存不能容纳的集合上执行Dask计算()

python、memory、dask

如果集合不能放入内存，那么dask.compute()的替代方案是什么？某种内存映射？我浏览了一下这个，但没看清楚。

浏览 2提问于2019-01-31得票数 1

1回答

延迟dask.dataframe.DataFrame.to_hdf计算崩溃

dask、dask-distributed、dask-delayed

我使用Dask来执行以下逻辑：从多个输入文件读取主延迟dd.DataFrame (每个文件一个pd.DataFrame ) 对主延迟的query执行多个DataFrame调用使用DataFrame.to_hdf保存DataFrame.query调用中的所有数据文件。如果我在to_hdf调用中使用to_hdf，并将每个to_hdf调用返回的Delayed列表提供给dask.compute，则会出现崩溃/seg故障。(如果我省略了compute=False，一切都运行得很好)。有人在谷歌上给我提供了一些关于锁的信息；我尝试添加一个dask.distributed.Clie

浏览 0提问于2019-08-13得票数 1

1回答

异步计算dask数组块(Dask + FastAPI)

dask、dask-distributed、fastapi、uvicorn

我正在构建一个FastAPI应用程序，该应用程序将为Dask的块提供服务。我想把和结合起来。下面是一个mcve，它演示了我试图在应用程序的服务器和客户端做什么：服务器端： import time import dask.array as da import numpy as np import uvicorn from dask.distributed import Client from fastapi import FastAPI app = FastAPI() # create a dask array that we can serve data = da.from_array(

浏览 1提问于2020-03-02得票数 3

1回答

使用dask保持中间DataFrame计算

python、dask

有没有办法指示dask在执行昂贵的计算时保留中间值？在下面的示例中，我希望dask保留在计算d['d']时创建的中间列d['c']。 ## very large file d = ddf.read_csv("F:/tmp.csv") d['c'] = d['a'] * d['b'] d['d'] = d['c'] + 1 ## first call %timeit d['d'].value_counts().compute() ## sec

浏览 18提问于2017-06-29得票数 2

回答已采纳

1回答

使用dask delayed创建字典值

python、dictionary、dask、dask-delayed

我正在努力找出如何延迟dask来处理涉及创建字典的特定工作流程。这里的想法是func1，func2，func3可以同时独立运行，我希望这些函数的结果是新字典z中的值。 from dask.delayed import delayed x1 = {'a': 1, 'b': 2, 'c': 3} x2 = {'a': 4, 'b': 5, 'c': 6} @delayed def func1(d1, d2): return d1['a'] + d2['a']

浏览 5提问于2018-02-11得票数 4

回答已采纳

1回答

dask缓存延迟函数示例

caching、dask

一个简单的dask缓存示例。缓存不能像预期的那样工作。让我们假设我们有一个数据列表和一系列延迟的函数，期望对于遇到相同输入的函数，根据Cache值缓存/记忆结果。这个例子说明了事实并非如此。 import time import dask from dask.cache import Cache from dask.diagnostics import visualize from dask.diagnostics import Profiler, ResourceProfiler, CacheProfiler def slow_func(x): time.sleep(5)

浏览 0提问于2020-05-08得票数 2

1回答

在不同列表中并行运行所有元素组合

python、parallel-processing、dask、dask-distributed、dask-delayed

我试图在不同数组中的所有元素的不同组合上与dask一起运行一个函数，并且我很难应用它。串行代码如下： for i in range(5): for j in range(5): for k in range(5): function(listA[i],listB[j],listC[k]) print(f'{i}.{j}.{k}') k=k+1 j=j+1 i=i+1 这段代码在我的计算机上运行时间是18分钟，而每个数组只有5个元素，我想在更大的数组上并行运行

浏览 13提问于2022-01-07得票数 0

回答已采纳

2回答

查找dask数组中元素的频率而不丢失有关数组形状的信息？

dask

我需要找到数组中每个元素的频率，同时保留有关数组形状的信息。这是因为我稍后需要对其进行迭代。我尝试了this solution和this one。它在numpy上运行良好，但在dask中似乎不起作用，因为dask数组的限制，大多数操作都需要知道它们的大小。 import dask.array as da arr = da.from_array([1, 1, 1, 2, 3, 4, 4]) unique, counts = da.unique(arr, return_counts=True) print(unique) # dask.array<getitem, shape=(n

浏览 23提问于2019-05-18得票数 1

1回答

如何在不重新加载大型CSV的情况下执行多个Dask计算

python、dask

我必须处理许多大的(大约10 to ) CSV文件。我目前正在使用Dask将数据预处理成一些聚合的统计数据，然后使用常规的Pandas进一步分析。我遇到的问题是Dask会在每次调用compute()时重新加载数据。一些用来说明这个问题的虚拟代码： import dask.dataframe as dd ddf = dd.read_csv('very_large_file.csv') # ca. 10GB # Every line seems to trigger painfully slow re-reading of the CSV file from disk!

浏览 15提问于2019-03-22得票数 1

回答已采纳

1回答

为什么我的dask分布式任务流中有这么大的空白？

python、dask、dask-distributed

我见过，还有。第一种说法是，空格被本地工作阻塞，但是通过我的程序，当我调用dask.compute()而不是周围的代码时，~20延迟就会发生。问题是，他们的问题是通过禁用垃圾收集来解决的，但这对我没有任何帮助。第二种方法是检查调度程序分析器，但这似乎也不需要很长时间。我的任务图非常简单--我在500个没有任务依赖的对象上调用一个函数。(重复这3次，一旦我解决了这个问题，我将链接这些函数)。下面是，以及调用dask.compute()的。对于造成这种情况的原因，有什么建议吗？对于我如何更好地了解这一点，有什么建议吗？

浏览 3提问于2022-07-10得票数 0

1回答

在Dask中重复使用中间结果(混合延迟和dask.dataframe)

python、dask

基于在上收到的答复，我编写了一个ETL过程，如下所示： import pandas as pd from dask import delayed from dask import dataframe as dd def preprocess_files(filename): """Reads file, collects metadata and identifies lines not containing data. """ ... return filename, metadata, skiprows d

浏览 3提问于2016-09-09得票数 3

回答已采纳

1回答

使用带有延迟项数组的dask.compute

dask

目前，我可以创建(嵌套的)对象列表，这些对象是热切计算的项和延迟项的组合。如果我将该列表传递给dask.compute，它可以创建该图表并将结果计算为一个新列表，用它们的计算对应项替换延迟项。这个列表有一个非常明确的结构，我想利用它。因此，在使用dtype=object之前，我一直在使用numpy数组。我可以将这些numpy数组传递给dask.compute吗？还有其他支持numpy切片的集合，我可以使用吗？我目前的解决办法是要么使用字典，要么使用嵌套列表，但是分割numpy数组的能力确实不错，我不想松开它。谢谢, 标记

浏览 0提问于2018-06-29得票数 2

回答已采纳

2回答

Dask :如何并行化和序列化方法？

python、dask、distributed-computing、dask-delayed

我正在尝试在PBS集群上使用Dask来并行化来自类的方法。我最大的挑战是这个方法应该并行化一些计算，然后在结果上运行进一步的并行计算。当然，这应该分布在集群上，以便在其他数据上运行类似的计算... 集群创建完成： cluster = PBSCluster(cores=4, memory=10GB, interface="ib0", queue=queue, processes=1,

浏览 26提问于2021-02-02得票数 1

回答已采纳

1回答

如何提高Python中并行循环的效率

python、parallel-processing、multiprocessing、dask、dask-delayed

我对Python中的并行循环与Matlab中的parloop相比有多低感兴趣。在这里，我提出了一个简单的寻根问题，强迫a和b之间的初始猜测10^6。 import numpy as np from scipy.optimize import root import matplotlib.pyplot as plt import multiprocessing # define the function to find the roots func = lambda x: np.sin(3*np.pi*np.cos(np.pi*x)*np.sin(np.pi*x)) def forfunc(

浏览 0提问于2020-10-17得票数 0

回答已采纳

1回答

dask进程调度程序的性能不佳。

python、parallel-processing、multiprocessing、dask

我定义了一个cpu绑定函数。 def countdown(n): while n > 0: n -= 1 在我的笔记本电脑上运行countdown(50000000)需要2.16秒。首先，我测试multiprocess并行化。 from multiprocess import Pool with Pool(2) as p: l=p.map(countdown,[50000000,50000000]) 需要2.46秒，这是一个很好的并行化。然后，我测试了dask进程调度器并行化。 l=[dask.delayed(countdown)(50000000),

浏览 1提问于2021-08-03得票数 1

1回答

显示dask.compute(*something)调用的进度

dask、dask-distributed、dask-delayed、dask-dataframe

我使用Dask在我的代码上有以下结构： @dask.delayed def calculate(data): services = data.service_id prices = data.price return [services, prices] output = [] for qid in notebook.tqdm(ids): r = calculate(parts[parts.quotation_id == qid]) output.append(r) 事实证明，当我在output列表上调用dask.compute()方法时

浏览 49提问于2021-01-08得票数 0

回答已采纳

2回答

用Dask读取多个Excel文件

python、pandas、dataframe、dask、dask-dataframe

有人能帮我理解如何在Dask中读取多个excel文件吗？在潘达斯，我会用Glob做这个 files = glob.glob('Working Files/*.xlsx') df = pd.concat([pd.read_excel(i, skiprows=2) for i in files], ignore_index=True) 需要帮助在Dask中做同样的事情谢谢, 贾克

浏览 1提问于2021-06-20得票数 1

1回答

使用多个工作者同时执行任务来计算多个任务

python、dataframe、dask、dask-distributed

我有两个具有df的工作者(A和B)，我正在尝试通过以下任务计算多个描述性统计数据： Task 1: df.isnull().sum() Task 2: df['column'].value_counts() 我想将task1赋值给A，将task2赋值给B，以便与dask并行化计算。从文档中看，如何实现这一点并不是很清楚。我有以下代码： future = client.compute(task1, task2, workers={task1: 'ipofA',task2: 'ipofB' }) future.result() 但这会给出以下错误：

浏览 0提问于2019-11-18得票数 0

3回答

延迟函数的dask计算字典

python、dask、python-xarray

我想将这段代码并行化： - "mean": float(zonal_extract.mean().compute()), - "min": float(zonal_extract.min().compute()), - "max": float(zonal_extract.max().compute()), - "sum": float(zonal_extract.sum().compute()), - "stddev": float(zona

浏览 49提问于2021-11-13得票数 0

回答已采纳

1回答

一起计算多个延迟对象；每一个完成后立即发送消息？

python、dask

我在一起计算了许多dask延迟对象，导致文件被写入磁盘，例如在这个玩具示例中： import xarray as xr import dask.array as da objs = [] for i in range(10): ds = xr.Dataset({"x": (("a",), da.arange(10)*i)}) objs.append(ds.to_netcdf(f"/tmp/test{i:d}.nc", compute=False)) da.compute(objs) 一旦计算成功，是否有方法为每个延迟对象执行一些

浏览 4提问于2022-11-07得票数 0

回答已采纳

1回答

如何在dask计算后将结果保存到磁盘？

python、dask

我有一个dask延迟计算的结果，它可以是一个浮点数字、一个数字列表或一个numpy数组。是否有一种标准的dask方法将这些结果保存到本地磁盘或HDFS？

浏览 1提问于2019-05-21得票数 0

回答已采纳

1回答

带期货的Dask计算子图

python-3.x、dask、concurrent.futures、dask-distributed

我想提交一个dask任务，它将执行以下操作：使用dask.bag (def fakejob)构建一个懒惰的dask图计算1中的图形，并将其保存到拼花中(将此部分去掉，只是一个动机)。我需要对多个输入这样做，所以我一直试图像这样使用dask.distributed的未来特性。 from dask.distributed import Client client = Client(processes=True) def fakejob(path): return ( dask.bag .read_text(path)

浏览 3提问于2017-07-26得票数 2

回答已采纳

1回答

达克:如果一个人失败了，继续执行别人的任务。

python、dask、dask-distributed、dask-delayed

我有一个简单的(但很大)任务图在达斯克。这是一个代码示例 results = [] for params in SomeIterable: a = dask.delayed(my_function)(**params) b = dask.delayed(my_other_function)(a) results.append(b) dask.compute(**results) 这里，SomeIterable是一个dict列表，其中每个参数都是my_function的参数。在每次迭代中，b依赖于a，因此如果生成a的任务失败，则无法计算b。但是，results的每个元

浏览 6提问于2021-06-24得票数 3

回答已采纳

2回答

Dask:我如何在延迟dask的情况下并行化我的代码？

multithreading、python-3.x、parallel-processing、python-multiprocessing、dask

这是我第一次尝试并行处理，我一直在研究Dask，但我在实际编码时遇到了问题。我已经看过他们的例子和文档，我认为dask.delayed会工作得最好。我试图用delayed(function_name)来包装我的函数，或者添加一个@delayed装饰器，但是我似乎不能让它正常工作。与其他方法相比，我更喜欢Dask，因为它是用python编写的，而且(假定)简单。我知道dask在for循环中不起作用，但他们说它可以在循环中起作用。我的代码通过一个函数传递文件，该函数包含其他函数的输入，如下所示： from dask import delayed filenames = ['1.csv&

浏览 1提问于2017-03-02得票数 26

回答已采纳

1回答

在不使用dask的情况下在块中加载xarray DataArray

dask、python-xarray

是否有可能将DataArray的部分块(存储为单个netcdf文件)从磁盘加载到内存(即不同时加载整个数据数组)，但不使用DataArray？问题是，我使用dask作为集群调度程序来提交作业和在这些作业中--我想将一个数据数组以小块的形式从磁盘中分页到内存中。不幸的是，Dask不喜欢嵌套的dask调度器，因此试图按照da = xr.open_datarray( file, chunks={'time':1000} )加载数据数组是行不通的(这会导致dask抛出嵌套的守护进程错误)。理想情况下，我希望这样做--不将整个数据数组加载到内存中，但只加载相关的部分： da = xr

浏览 0提问于2021-02-11得票数 2

1回答

如何使用dask.distributed并行嵌套循环？

python-3.x、parallel-processing、dask、dask-distributed、dask-delayed

我试图使用这样的方式来使用dask分发来并行一个嵌套循环： @dask.delayed def delayed_a(e): a = do_something_with(e) return something @dask.delayed def delayed_b(element): computations = [] for e in element: computations.add(delayed_a(e)) b = dask.compute(*computations, scheduler='distributed

浏览 1提问于2019-03-10得票数 0

回答已采纳

2回答

使用map_partitions和pd.df.to_sql从dataframe创建sql表

python、postgresql、pandas、dask、pandas-to-sql

Dask没有像熊猫那样的df.to_sql()，所以我尝试复制这个功能，并使用map_partitions方法创建一个sql表。这是我的代码： import dask.dataframe as dd import pandas as pd import sqlalchemy_utils as sqla_utils db_url = 'my_db_url_connection' conn = sqla.create_engine(db_url) ddf = dd.read_csv('data/prod.csv') meta=dict(ddf.dtypes) d

浏览 0提问于2019-01-24得票数 12

回答已采纳

1回答

嵌套dask delayed或futures

python、dask、dask-distributed、dask-delayed

寻找嵌套并行作业的最佳实践。我不能嵌套dask delayed或futures，所以我混合了这两种方式来让它正常工作。这不是建议的做法吗？有没有更好的方法呢？示例： import dask from dask.distributed import Client import random import time client = Client() def rndSeries(x): time.sleep(1) return random.sample(range(1, 50), x) def sqNum(x): time.sleep(1) return x*

浏览 5提问于2021-02-05得票数 0

2回答

熊猫群对象的dask延迟函数

pandas-groupby、dask、dask-delayed

我不知道如何计算来自df.groupy.apply()操作的延迟对象。如果有人能帮忙我真的很感激。下面是我编写的示例代码 import pandas as pd import dask df = pd.DataFrame(columns=['id','id2','val1']) df['id'] = ['A','A','A','B','C','C','D','D'] df['id2']=[

浏览 3提问于2021-12-22得票数 1

回答已采纳

1回答

实际上，我如何让dask计算一个延迟的或基于dask容器的结果的列表？

python、dask

对于许多跨文件的表，我有一个可并行的小任务，即独立计算结果。我可以构造延迟列表或dask.dataframe列表(并且已经尝试过了，例如dict)，并且我无法获得所有要计算的结果(我可以使用.get()从一个dask图形风格字典中获得单个结果，但同样不能轻松地计算所有结果)。下面是一个很小的例子： >>> df = dd.from_pandas(pd.DataFrame({'a': [1,2]}), npartitions=1) >>> numbers = [df['a'].mean() for _ in range(2)]

浏览 4提问于2016-05-24得票数 6

回答已采纳

1回答

使用共享内存对内存中的任务进行并行化(不发送到其他进程)？

dask

我有一个内存中可并行的小问题，但由于需要在进程之间来回发送大量数据，所以在常规的Python多处理(只有2xish)中不能提供很好的加速。希望达斯克能帮上忙。我的代码基本上如下所示： delayed_results = [] for key, kdf in natsorted(scdf.groupby(grpby_key)): d1 = dd.from_pandas(kdf, npartitions=1) d2 = dd.from_pandas(other_dfs[key], npartitions=1) result = dask.delayed(function

浏览 0提问于2018-07-04得票数 0

回答已采纳

1回答

python、dask、dask-dataframe

我正在尝试避免重复使用dask.compute(list_of_dask_computations)进行dask计算。在我的代码中，我必须在dask dataframe中创建一些分类列，并调用dask.DataFrame.categorize来使类别成为已知的。但我希望与dask.compute(list_of_dask_computations)提供的其他列上的其他计算同时执行该调用。但我不知道该怎么做。下面是一个示例： import dask df = dask.datasets.timeseries() df['letter'] = df['name'

浏览 12提问于2020-04-15得票数 0

1回答

Dask.groupby将多个分区合并为一个

python-3.x、dataframe、dask

我有一台dask.dataframe df2 = dd.read_csv(path, dtype=dtypes, sep=',', error_bad_lines=False) 它被dask本身拆分成220个分区 print(df2.npartitions) >>220 我想使用两次groupby并将两个数据帧保存到文件中 coccurrence_df = df2.groupby(['h1_h2', 'hashtag1','hashtag2','user_id']).count().reset_inde

浏览 17提问于2018-08-10得票数 0

回答已采纳

1回答

无末次函数循环的并行计算

python、locking、dask、dask-distributed、dask-delayed

我试图用脚本并行读取16个gzip文件的内容： import gzip import glob from dask import delayed from dask.distributed import Client, LocalCluster @delayed def get_gzip_delayed(gzip_file): with gzip.open(gzip_file) as f: reads = f.readlines() reads = [read.decode("utf-8") for read in reads] re

浏览 12提问于2022-01-29得票数 0

回答已采纳

1回答

如何在多个文件中使用Dask read_csv读取第n行以快速读取多个文件？

python、pandas、dataframe、bigdata、dask

我正在尝试将多个CSV文件读入一个数据文件中。而这是使用列表理解和熊猫的连接功能。 import pandas as pd files = ['file1.csv', 'file2.csv', etc....] all_df = [] for filename in files: all_df.append(pd.read_csv(filename)) df = pd.concat(all_df) 我发现当文件是一个很长的列表(例如，100多个项目)时，这太慢了。我试过使用Dask，它接受列表作为输入，并内置了并行化以提高速度。 import dask

浏览 2提问于2021-01-27得票数 1

回答已采纳

1回答

为什么dask.delayed在使用networkx时比串行代码花费的时间更长？

python、networkx、dask、dask-distributed、dask-delayed

我想使用并行计算和my_func()一起加速函数dask.delayed的执行。在超过3维的循环中，my_func()从iris.cube.Cube (本质上是从循环外的文件加载的dask.array )中提取一个值，并根据该值使用networkx创建一个随机网络，并找到从节点0到节点16的最短路径。每个数组点的计算是独立的。为什么执行并行代码比串行代码(2.94 s)花费更长的时间(5.43s)？是否有更好的方法来加速使用dask或multiprocessing之类的东西？下面是一个可重复的例子： import random import dask import iris impor

浏览 3提问于2021-03-04得票数 2

回答已采纳

1回答

如何在Dask中系统地重用延迟函数的结果？

python、dask、dask-delayed

我正在用Dask构建一个计算图。有些中间值将被多次使用，但我希望这些计算只运行一次。我一定是犯了个小错误，因为这不是事实。下面是一个很小的例子： In [1]: import dask dask.__version__ Out [1]: '1.0.0' In [2]: class SumGenerator(object): def __init__(self): self.sources = [] def register(sel

浏览 6提问于2021-04-14得票数 3

回答已采纳

2回答

如何将多个函数应用于dataframe的多个块？

python、pandas、function、dataframe、dask

我有50万行和3列的数据。我想要为dataframe中的每5,000行代码块(即100块)计算三个函数的结果。这三个函数中有两个是使用定义的，第三个是第3列中值的平均值。目前，我首先提取一个块，然后计算该块的函数结果。对于第3列的平均值，我使用的是df.iloc[:,2].compute().mean()，但其他函数是在dask之外执行的。有没有一种方法可以利用达斯克的多线程能力，将整个数据帧和块大小作为输入，并让它计算相同的函数，但却是自动的？这似乎是使用达斯克的更合适的方式。而且，对我来说，这就像是一个基本的dask问题，所以如果这是一个重复的问题，请告诉我正确的地方(我对dask还

浏览 5提问于2020-03-13得票数 0

回答已采纳

1回答

使用Dask并行化读取的JSON ->保存部分

python、json、dask、parquet

我想使用Dask摄取一个大的(>2GB，> 1M行)行分隔的JSON，并将其保存为一批Parquet文件。我正在我的个人电脑上进行这些实验，所以这个文件比可用的内存还要大。试图将整个JSON文件加载到内存中会导致内存错误。使用Pandas，我可以使用read_json()创建一个JsonReader对象，然后在for循环中遍历块： reader = pd.read_json(file, orient='records', lines=True, chunksize=rows) i=1 for chunk in reader: chunk.to_parque

浏览 9提问于2022-09-01得票数 0

1回答

在dask内部调用dask生成进程

python、multiprocessing、dask

我们有一个由许多任务组成的大型项目。我们使用一个dask图来安排每个任务。图的一个小样本如下所示。请注意，dask被设置为多处理模式。 dask_graph： universe: !!python/tuple [gcsstrategies.svc.business_service.UniverseService.load_universe_object, CONTEXT] raw_market_data: !!python/tuple [gcsstrategies.svc.data_loading_service.RDWLoader.load_market_data, CONTEXT,

浏览 5提问于2017-01-17得票数 4