在对单个数据帧进行计算后，使用Dask返回多个数据帧_使用groupby进行数据帧计算_如何在dask数据帧中使用等级值进行索引？ - 腾讯云开发者社区

、、

有没有办法获取一个DataFrame (最初在Pandas中，用不同的随机种子对其进行采样，并使用Dask返回几个数据帧(每个随机种子一个)。我对Dask非常原始的理解是，我可以获取一个Dataframe，拆分它，然后在它上面进行计算，但我想知道我是否可以使用Dask来解决这个问题。

浏览 19提问于2019-06-28得票数 0

回答已采纳

2回答

使用dask合并csv文件

、

我正在使用dask读取5个大的(>1 GB) csv文件，并将它们合并(类似SQL)到一个dask数据帧中。现在，我正在尝试将合并后的结果写入单个csv。我在dask dataframe上使用compute()将数据收集到单个df中，然后调用to_csv。但是，compute()在读取所有分区的数据时速度很慢。我尝试在dask df上直接调用to_csv，它

浏览 5提问于2017-03-23得票数 4

1回答

任务: client.persist和client.compute之间的区别

、

我对client.persist()和client.compute()之间的区别感到困惑，它们似乎(在某些情况下)都开始了我的计算，并且都返回异步对象，但在我的简单示例中并非如此：fromdask.distributed import Clientclient = Client() return argsx in range(1000)] x2 = client.p

浏览 3提问于2017-01-23得票数 22

回答已采纳

1回答

Pandas-Dask DataFrame Apply函数，返回列表

、、、

我正在尝试向dask数据帧添加多个列，以存储apply函数的结果。这将是我关于堆栈溢出的第一个问题，我希望这个问题不会太长！'weather‘创建了dask数据帧，然后将函数'dfFunc’应用到数据帧的每一行。这段代码运行得很好，因为输出'res‘是原始的天气数据帧，其中有一个名为'NewCol1’的新列。我的困惑在于，如果我希望我的函数返回</em

浏览 5提问于2018-10-11得票数 1

1回答

尽管我使用的是建议的方法，Dask还是输出了使用client.scatter的警告

、、、

在dask distributed中，我收到了以下警告，这是我意想不到的：import pandasdask_df1,2,3,4,5]*1000}), npartition

浏览 9提问于2018-02-22得票数 6

回答已采纳

0回答

Dask图的执行和内存使用

、、

我正在dask中构建一个非常大的DAG，以提交给分布式调度器，在分布式调度器中，节点操作数据帧，而数据帧本身可能非常大。一种模式是，我有大约50-60个函数，用于加载数据和构造pandas数据帧，每个数据帧大小为几百MB (并且逻辑上表示单个表的分区)。我想将这些连接到图中下游节点的单个dask数据帧中，同时最小化数据<

浏览 6提问于2017-06-07得票数 4

1回答

合并两个大型数据帧

、、、

我有两个大数据帧:一个包含3M行，另一个包含2M行第一个数据帧： sacc_id$ id$ creation_date0 001A000000hAUn8IAG我在这里的一些讨论中看到Dask可以提

浏览 16提问于2019-01-31得票数 0

1回答

存储在dataframe中的计算dask延迟对象

、、、

我正在寻找最好的方法来计算存储在数据帧中的许多dask delayed指令。我不确定是否应该将pandas数据帧转换为包含delayed对象的dask数据帧，或者是否应该对pandas数据帧的所有值调用compute调用。enr.append(delayed(hypergeom.sf)(k=k, M=10000, n=20, N=N, loc=0))如果不对

浏览 10提问于2019-08-10得票数 0

1回答

块大小未知的示例dask数据帧

、、

我正在尝试读取一个大型.parquet作为dask数据帧，并对其进行采样：sample_ddf = ddf.sample0.03)ValueError: Arrays chunk sizes are unknown: (nan,) ddf.to_<e

浏览 29提问于2021-05-21得票数 0

1回答

并行化Dask聚合

、、、、

基本上，当我进入这个聚合时，我的集群只使用我的一个线程，这对性能不是很好。我正在对16k行的150多个属性(大部分是分类数据)进行计算，我认为我可以将这些属性拆分成单独的线程/进程，然后再将它们放回单个数据帧中。注意，这个聚合必须在两个列上，所以我可能会因为不能使用单个列作为索引而获得更差的性能。有没有办法将dask期货或并行处理合并到聚合计算中？im

浏览 29提问于2020-06-13得票数 2

回答已采纳

1回答

如何使用python记录链接工具包对大数据集执行重复数据删除？

、、、

我目前正在使用Python Record Linkage Toolkit对工作中的数据集执行重复数据消除。在理想的情况下，我只需要使用阻塞或排序邻域来减少记录对索引的大小，但有时我需要对包含超过75k条记录的数据集进行完整索引，这会导致数十亿条记录对。，但不提供任何在单个数据帧内进行重复数据删除的功能。有没有一种方法可以拆分数据帧并迭代地计算匹配

浏览 26提问于2021-10-11得票数 0

2回答

使用Dask导入大型CSV文件

、、、、

我正在使用Dask导入一个非常大的csv文件，大约680 am，然而，输出并不是我所期望的。我的目标是只选择一些列(6/50)，并可能过滤它们(这一点我不确定，因为似乎没有数据？)： file_path = "/Volumes/Seagate/Work/Tickets/Third ticket/Extinction/species_all.csv= dd.read_csv(fi

浏览 6提问于2021-07-03得票数 3

1回答

如何将MultiIndex熊猫数据帧转换为Dask数据帧

、、、、

我试图将两个变量(一个ID和一个DateTime变量)为MultiIndexed的熊猫数据帧转换为dask数据帧，但是我得到了以下错误； "NotImplementedError: Dask doesnot support MultiIndex Dataframes" 我正在使用下面的代码 import pandas as pd dask_df= dd.f

浏览 18提问于2019-07-02得票数 2

回答已采纳

1回答

dask是如何在多个系统上实现的？

、、、

我是Dask库的新手，我想知道如果我们在两个系统上使用dask实现并行计算，那么我们应用计算的数据框架是否存储在这两个系统上？并行计算究竟是如何进行的，文档中并不清楚。

浏览 0提问于2018-07-03得票数 0

1回答

将文件夹中的许多羽化文件加载到dask中

、、、

有了一个包含许多.feather文件的文件夹，我想将它们全部加载到python中的dask中。到目前为止，我已经尝试了以下来自GitHub https://github.com/dask/dask/issues/1277上类似问题的答案 files = [...] dfs = [dask.delayed是否可以在dask中执行上述操作？

浏览 19提问于2019-08-08得票数 2

回答已采纳

1回答

Dask -是否有可能通过自定义函数使用每个worker中的所有线程？

、、

在我的例子中，我在S3中有几个文件和一个自定义函数，该函数读取每个文件并使用所有线程进行处理。为了简化示例，我只生成了一个数据帧df，并且假设我的函数是使用多进程的tsfresh.extract_features。生成数据 import pandas as pdfrom tsfresh.examples.robot_execution_failuresfrom dask.distributed

浏览 26提问于2020-08-27得票数 1

1回答

在Dask中使用尚未实现的Pandas函数

、、、、

我相信在使用Dask数据帧时，我在Dask教程中看到了一个关于如何使用Dask框架中尚未实现的Pandas函数的建议，但我似乎看错了地方。例如，我想使用Pandas函数'ewm‘。作为一种变通方法，我将Dask数据帧转换为Pandas数据帧，在Pandas数据帧上运行ewm，然后将它们转换回Dask，

浏览 10提问于2019-06-02得票数 1

回答已采纳

1回答

如何在pandas DataFrame列的子组合上加速相同的计算？

、、

我希望将相同的函数应用于熊猫DataFrame的多个子组合。想象一下完整的DataFrame有15列，我想从这个完整的DataFrame中绘制一个包含10列的子帧，我总共会有3003个这样的子帧。我目前的方法是使用多处理，它适用于具有大约20列的完整DataFrame - 184,756个组合，但是真正的完整框架有50个列，导致超过100亿个组合，之后会花费太长时间。有没有适合这种类型计算的库？我以前用过dask，它的功能非常强大，但dask只适用于在单个</e

浏览 0提问于2021-04-16得票数 1

1回答

在单个列上执行操作时，dask是否加载所有列？

每当我使用dask数据帧进行计算时，我都会确保只加载必要的列，以便能够节省计算速度。我只是不明白dask是如何在内部工作的，为什么他不能从拼花柱状格式中受益。在下面的小示例中，test.parquet是一个包含13列各种数据类型、10M行和16个分区的拼图文件。正如您所看到的，如果我只对单个列的最小值感兴趣，那么当我只加载目标列时，速度会有非常明显的提高。在使用分布式调度器时，我还可以看到加载到内

浏览 1提问于2019-03-14得票数 2

1回答

在应用函数之前，强制Dask延迟对象计算所有参数

、

我真的很喜欢使用Dask。def inc(x, y):类似这样的东西 if hasattr(y, compute): return x + y dinc = dask</

浏览 0提问于2017-01-30得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云