在Dask仪表板中进行100%的Dask DF操作后，需要很长时间

、、

我正在使用大型CSV (~60 in；~250M行)和Dask in Jupyter。加载DF后，我要做的第一件事是连接两个字符串列。我可以成功地做到这一点，但是我注意到单元执行时间似乎并没有随着工作进程数量的增加而减少(我在一台具有64个逻辑核心的机器上尝试了5、10和20 )。如果说有什么不同的话，那就是每五个左右的工人似乎就会增加一分钟的执行时间。同时，Dask仪

浏览 21提问于2021-07-23得票数 1

回答已采纳

1回答

将任务流导出为svg

、、、

我正在使用dask_yarn对公司集群进行数据分析。工具栏中没有用于执行此操作的工具。

浏览 4提问于2021-04-17得票数 1

1回答

对于.head(20)这样的操作，如何让Dask变得像PySpark一样懒惰？

、

在PySpark中，每当我在一个非常大的数据帧df上排列一组复杂的操作，然后键入：Spark将只执行必要的操作(在部分数据集上)，以便快速返回20条记录以供显示。除非我用.collect()强制它这样做，否则它不会对dataframe df的所有行执行操作。另一方面，在Dask

浏览 38提问于2018-06-03得票数 1

1回答

Groupby和shift a dask数据帧

、

我想使用dask 2.14扩展我在熊猫数据帧上所做的一些操作。例如，我想对数据帧的一列应用移位：data = dd.read_csv('some_file.csv')但是我得到了AttributeError: 'SeriesGroupBy

浏览 7提问于2020-05-05得票数 5

回答已采纳

1回答

调试非常慢的`from_delayed`调用

、

我有一个长长的dask链式管道，最后一位是一串dask.dataframe.from_delayed调用，如下所示。这条线路非常慢--每次通话需要很长时间。仅设置管道就需要1-2个小时。当我调试这个问题时，我取出相关的代码并传入具有相同形状的数组。它可以立即运行。这是因为我的现实生活中的管道有一个上游图，它正在与之竞争吗？我的解决方案是将我的流

浏览 17提问于2020-06-04得票数 0

2回答

为什么dask按索引字段选择的速度这么慢？

、、、

我正在将存储在拼图文件中的数据读取到dask中，然后尝试通过分类索引字段选择数据。在parquet中保存数据时，我使用与在dask中用作索引字段相同的字段对数据进行分区。我希望dask set_index操作会花费一些时间，但看起来后续的基于索引字段的“选择”类型操作应该会非常快。然而，它们的

浏览 1提问于2021-11-06得票数 2

3回答

不断收到"distributed.utils_perf - WARNING - full垃圾回收占用了19%的CPU时间...“

在我完成DASK代码之后，我一直收到"distributed.utils_perf - WARNING - full垃圾回收最近占用了19%CPU时间“的警告消息。我正在使用DASK做一个大型的地震数据计算。计算完成后，我会将计算出的数据写入磁盘。写入磁盘部分所需的时间比计算要长得多。在我将数据写入磁盘之前，我调用了client.close()，我假设我已经完成了DASK

浏览 185提问于2019-10-19得票数 7

1回答

如何按Dask列出正在运行的进程？

、

我开始使用dask了。就我自己(以及我想向其演示dask的同事)的理解而言，我想构造一个基本的数据帧，执行一个基本的操作，并将执行时间与仅限pandas的实现进行比较。time df = dd.from_pandas(pd.D

浏览 2提问于2018-06-05得票数 0

1回答

无法从本地计算机访问文件时使用dask.dataframe读取

、

我有一台功能强大的机器(远程机器)，可以通过SSH访问。我的数据存储在远程机器上。我想运行并访问远程机器上的数据。为此，我在远程机器上运行了一个dask-scheduler &一个dask-worker。然后，我在我的笔记本电脑(本地机器)上运行了一个jupyter笔记本电脑，使用的是client=Client(‘schedular ip:8786’)，但它仍然引用本地机器上的数据，而不是

浏览 31提问于2021-09-26得票数 2

1回答

为什么dask_ml.preprocessing.OrdinalEncoder.transform会产生不按序号编码的结果？

、、

我对的结果感到困惑from dask_ml.preprocessing import OrdinalEncoderas DaskOrdinalEncoderimport pandas as pd np.random.seed(1234) array([[2., 2.], [1.,

浏览 7提问于2021-05-07得票数 0

回答已采纳

1回答

Dask Dataframe:按A列删除重复项，保留B列中值最高的行

、、

基本上，这是对熊猫在的答案。在熊猫里，我采用了这个解决方案但我无法有效地将相同的解决方案应用于df.loc[max_idx.compute()] 在整个dask框架上，方法df.nlargest(1, "B")可以满足我的</

浏览 1提问于2021-06-17得票数 0

回答已采纳

1回答

导入DASK时出错:模块“dask.array”没有属性“分块”

、、、、

我正在尝试使用DASK进行快速计算，因为在我的系统上17个小时后，逻辑回归被中止。我的数据集大约有100万行。我首先运行了以下命令：import dask.dataframe as dd from dask.distributed import Client\Anaconda3\lib\site-packages\distributed\bokeh\core.py:5

浏览 0提问于2020-06-01得票数 0

1回答

在Jupyter notebook中初始化任务计算需要很长时间

、、、

我正在尝试使用Dask通过Jupyter笔记本在我的笔记本电脑上处理一个大于内存的数据集。数据存储在Amazon-s3存储桶中的csv文件数量。第一个单元运行很快，我可以按预期查看端口8787上的Dask仪表板。from dask.distributed import Clientclient = Client() clie

浏览 27提问于2019-01-17得票数 0

1回答

将大型数据库表读入Dask数据帧

、、

因此，我想先尝试将表读入Dask Dataframe，执行一些聚合，然后切换回Pandas进行后续分析。为此，我使用了以下几行代码。= 'column_xyz', schema = 'private') 在数据库中对index_col即'column_xyz‘进行了索引。这是可行的，但是当我执行一个操作，例如聚合时，返回结果需要很长时间(比如一个小时)。avg = df</em

浏览 17提问于2021-07-08得票数 0

3回答

Dask-Dataframe列中的唯一值数

、、、

我有一个从csv文件读取的Dataframe文件，有大约100万条记录和120个特性/列，我想在每一列中计算唯一值的数量。我可以使用for -循环分别为每一列执行此操作：dask_df = dd.read_csv("train.csv") print(dask<

浏览 4提问于2021-11-11得票数 0

2回答

快速采样Dask数据帧的方法(Python)

、、

我有一个很大的文件，我用Dask (Python)读取的。该文件大约有600万行和550列。我想随机选择5000条记录(没有替换)。下面是我尝试过的两个方法，但是运行起来需要很长时间(超过13个小时后我就停止了)：NSAMPLES=5000 samples =

浏览 0提问于2020-07-14得票数 1

0回答

循环中的DASK* Dataframe*

、

我在尝试在Dask中实现循环时遇到了一些问题。例如，在以下代码中： if df[col[i]].dtype=='object': elif df[col[时，同样的代码非常快，但在dask上，完成任务需要相当长的时间。我知道Dask<

浏览 5提问于2017-06-08得票数 1

1回答

如何在多个文件中使用Dask* read_csv读取第n行以快速读取多个文件？*

、、、、

我正在尝试将多个CSV文件读入一个数据文件中。而这是使用列表理解和熊猫的连接功能。all_df.append(pd.read_csv(filename))我发现当文件是一个很长的列表(例如，100多个项目)时，这太慢了。import dask.dataframe as dddf</em

浏览 2提问于2021-01-27得票数 1

回答已采纳

1回答

选择子集后将其转换为pandas时，Dask* dataframe内存不足*

、、、、

所以我有一个包含160M记录和240列的拼图文件。因此，我使用dask在python中使用EMR CLuster m5.12xlarge加载它。import dask.dataframe as dd 现在我需要其中一列的值计数和归一化值计数： count = df.a.value_counts这只需要几秒的时间来执行，并使用大约1.5 GB<e

浏览 1提问于2021-09-23得票数 0

1回答

当计算/持久化6,700万行dask数据时内存被填满

、、

我在分析多个df时遇到了这个问题，每个df都有大约6700万行。我可以计算()或导出任何单独的to_csv。我使用for循环来创建50个df，并将它们全部添加到一个列表中(我知道使用dask和for循环并不是最好的选择，我仍然在计算它)。然后，我把50 df的列表和级联成1 df和50 cols，并取其平均值。但是，我不能对最终的dataframe进行</

浏览 9提问于2022-02-28得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

将任务流导出为svg

对于.head(20)这样的操作，如何让Dask变得像PySpark一样懒惰？

Groupby和shift a dask数据帧

调试非常慢的`from_delayed`调用

为什么dask按索引字段选择的速度这么慢？

不断收到"distributed.utils_perf - WARNING - full垃圾回收占用了19%的CPU时间...“

如何按Dask列出正在运行的进程？

无法从本地计算机访问文件时使用dask.dataframe读取

为什么dask_ml.preprocessing.OrdinalEncoder.transform会产生不按序号编码的结果？

Dask Dataframe:按A列删除重复项，保留B列中值最高的行

导入DASK时出错:模块“dask.array”没有属性“分块”

在Jupyter notebook中初始化任务计算需要很长时间

将大型数据库表读入Dask数据帧

Dask-Dataframe列中的唯一值数

快速采样Dask数据帧的方法(Python)

循环中的DASK* Dataframe*

如何在多个文件中使用Dask* read_csv读取第n行以快速读取多个文件？*

选择子集后将其转换为pandas时，Dask* dataframe内存不足*

当计算/持久化6,700万行dask数据时内存被填满

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐