为什么在dask中计算带索引的拼图文件的形状会如此缓慢？

在Dask中计算带索引的拼图文件的形状缓慢的原因可能有以下几个方面：

数据量过大：如果拼图文件的数据量非常大，计算带索引的形状可能会变得缓慢。这是因为计算形状需要遍历整个数据集，如果数据集非常庞大，会导致计算时间增加。
索引分布不均匀：如果拼图文件的索引分布不均匀，即索引值在不同的拼图块之间分布不均匀，计算带索引的形状可能会变得缓慢。这是因为计算形状需要跨越多个拼图块，如果索引分布不均匀，会导致计算时间增加。
硬件资源限制：如果计算带索引的形状的操作过程中，硬件资源（如CPU、内存）受限，会导致计算速度变慢。这可能是因为计算过程中需要大量的计算和内存操作，如果硬件资源不足，会导致计算速度下降。

针对以上问题，可以考虑以下优化方案：

数据分片：将拼图文件进行适当的数据分片，可以将大数据集分成多个小数据集，从而减少计算带索引的形状时需要遍历的数据量，提高计算速度。
索引优化：对于索引分布不均匀的情况，可以考虑对索引进行优化，使得索引值在不同的拼图块之间分布更均匀，从而减少计算带索引的形状时需要跨越的拼图块数量，提高计算速度。
硬件资源优化：增加计算带索引的形状操作所使用的硬件资源，如增加CPU核心数、内存容量等，可以提高计算速度。

需要注意的是，以上优化方案是一般性的建议，具体的优化方法还需要根据具体的场景和数据特点进行调整。此外，关于Dask的更多信息和相关产品，您可以参考腾讯云的Dask产品介绍页面：Dask产品介绍。

为什么在dask中计算带索引的拼图文件的形状会如此缓慢？

、、

我已经从位于同一文件夹中的多个拼图文件中创建了一个拼图文件。每个文件对应一个分区。# `df` is a standard Pandas DataFrame wit

浏览 39提问于2019-11-25得票数 3

回答已采纳

2回答

python dask to_parquet占用大量内存

、、、、

我正在使用python 3和dask来读取拼图文件的列表，做一些处理，然后将它们全部放入一个新的联合拼图文件中供以后使用。该过程使用了如此多的内存，以至于它似乎试图在将所有拼图文件写入新的拼图文件之前将它们读取到内存中。为什么它试图将所有东西都加载到内存中，

浏览 107提问于2019-08-04得票数 2

1回答

如何在Dask中获取从拼图文件读取数据帧的单行值？

、

问题: DASK数据帧返回多行的pandas数据帧，每行都有相同的索引：我正在阅读许多拼图文件：拼图文件<em

浏览 48提问于2019-06-05得票数 0

1回答

在单个列上执行操作时，dask是否加载所有列？

每当我使用dask数据帧进行计算时，我都会确保只加载必要的列，以便能够节省计算速度。我只是不明白dask是如何在内部工作的，为什么他不能从拼花柱状格式中受益。在下面的小示例中，test.parquet是一个包含13列各种数据类型、10M行和16个分区的拼图文件。正如您所看到的，如果我只对单个列的最小值感兴趣，那么当我只加载目标列时，速度会有非常

浏览 1提问于2019-03-14得票数 2

1回答

DASK dataframe.to_csv将文件存储在worker上，而不是本地

、

我是DASK的新手，我正在尝试在私有云上建立一个分布式集群。现在，我在同一台机器上运行了调度器和一个工作程序，它们都运行在同一Docker容器中。相反，这些文件保存在调度程序/工作程序计算机上的/home/my_user/local_directory/data目录中。在parquet示例中，将在本地计算机上创建一个空的</

浏览 25提问于2020-03-27得票数 1

回答已采纳

2回答

为什么dask按索引字段选择的速度这么慢？

、、、

我正在将存储在拼图文件中的数据读取到dask中，然后尝试通过分类索引字段选择数据。在parquet中保存数据时，我使用与在dask中用作索引字段相同的字段对数据进行分区。我希望dask set_index操作会花费一些时间，但看起来后续的基于索引字段的“选择”类型操作应该会非

浏览 1提问于2021-11-06得票数 2

2回答

使用查询的mongodb 'count‘非常慢

、

每个人，im都使用MongoDB2.4.6版本，在windows 2008中使用64位。db.products.find({"catalogs":1205},{"_id":1}).count() is too slow. >> 442312 records.1205.0 }, fields: { _id: 1.0 } } ntoreturn:1 keyUpdates:0

浏览 5提问于2013-09-28得票数 10

1回答

Dask无法使用连接的数据写入拼图

、、

我正在尝试做以下几件事：使用pandas读取.dat文件，将其转换为dask数据帧，并将其连接到我从拼图文件中读取的另一个dask数据帧，然后输出到新的拼图文件。当我在python脚本中这样做时，脚本完成了，但是整个组合文件并没有被写出来(我知道因为它的大小- CSV是140MB，parquet文件大约是1 1GB to_pa

浏览 26提问于2020-06-13得票数 1

1回答

熊猫和木板的使用效率

、、、、

人们谈论很多关于使用的问题。我正在努力理解，如果我们可以利用整个功能的地板文件时，使用熊猫。例如，我有一个大的拼花文件(按年份划分)，包含30列(包括年份、状态、性别、last_name)和许多行。我想加载拼花文件，然后执行类似的计算。这意味着我们只想带来计算所需的列和行，在带有谓词和投影下推(以及为什么我们使用拼图)的拼图中，类似这样的

浏览 9提问于2022-03-03得票数 2

回答已采纳

1回答

慢达克性能相较于本地滑雪

、、

我是新使用达斯克，但经历了痛苦缓慢的表现，当尝试重写本机滑雪板功能的达斯克。我已经尽可能地简化了用例，希望得到一些帮助。tol=Tol)print(model.coef_)这需要几秒钟时间来计算然后，我在达斯克有以下内容： # Read in CSV and prepare params like before but using dask arrays

浏览 1提问于2018-11-15得票数 3

回答已采纳

2回答

为什么Dask在阅读时显示FileNotFound错误？

、、

我遇到了达斯克的问题，我在潘达斯身上看不见。我在谷歌云的笔记本上读过小数据集。df被保存为一个数据文件，我现在删除源'data_iris.csv‘文件，它显示文件找到的错误。如何克服它，因为我想删除文件后，保存到数据。

浏览 2提问于2021-09-30得票数 2

回答已采纳

2回答

Dask DataFrame:对具有多行的groupby对象进行重采样

、、、、

我从Castra创建了以下dask dataframe：并得到以下错误： TypeError: Only valid with DatetimeIndex, TimedeltaIndex o

浏览 6提问于2015-11-26得票数 5

回答已采纳

2回答

覆盖dask调度程序以并发加载多个工作人员上的数据

、

我想在我的分布式集群上运行图形/未来，它都有一个“加载数据”根任务，然后是一组在该数据上运行的培训任务。简化后的版本如下所示：client = Client(scheduler_ip) for params in train_param_s

浏览 6提问于2018-01-17得票数 4

回答已采纳

1回答

使用groupby的有效方法是什么&对大型数据集应用自定义函数并避免混洗？

、、、

我试图在一个巨大的数据集上使用groupby和apply，这是一个自定义函数，它会给我带来内存错误，并且工作人员会因为混洗而被杀死。我怎样才能避免洗牌，并有效地做到这一点。我正在读取大约50个700MB (每个)的拼图文件，这些文件中的数据是隔离的，即没有组存在于多个文件中。如果我尝试在一个文件上运行我的代码，它工作得很好，但当

浏览 17提问于2019-01-13得票数 1

1回答

如何在多个dask数组之间共享相同的索引

在getitem方法中，我调用da.Array.compute方法(代码仍然处于非常早期的状态)，因此我可以迭代子数组的批处理。m2 = m[m.type==2] 它按预期工作，我得到切片数组，但结果是我有一个巨大的内存消耗，我假设在后台的机制是复制每个子dask数组的索引。我的问题是，在不使用这么多内存的情况下，如何实现同样的结果？(我试图不“计算</e

浏览 1提问于2019-01-13得票数 1

1回答

在使用netcdf文件中的scheduler=“dask.array”时，变量不是可选择的错误。

、、

我能够从netcdf文件中定义的变量创建一个dask.array，当我试图使用scheduler="processes“计算结果时，会引发以下错误：但是，我知道是在简单计算沿时间轴的平均值时产生的误差。似乎相关，但无助于解决我的问题。计算沿时间轴的平均值只是为了

浏览 2提问于2019-04-03得票数 1

回答已采纳

1回答

从延迟集合创建大型dask.dataframe时杀死/内存错误

、、

我正在尝试从一大串CSV文件(目前的12个文件，8-10百万行和50列)创建一个。他们中的几个可能会融入我的系统记忆，但他们都肯定不会，因此使用达克而不是普通的熊猫。因为读取每个csv文件需要一些额外的工作(从文件路径中添加带有数据的列)，所以我尝试从一个延迟对象列表(类似的dask.dataframe )创建。我认为dask.

浏览 4提问于2016-12-21得票数 8

回答已采纳

6回答

我该如何获得达斯克数据中心的形状？

、

AttributeError：'DataFrame‘对象没有属性'shape’ 我该如何得到形状呢？

浏览 0提问于2018-05-15得票数 26

1回答

在Pandas中使用set_index比在Dask中转换更好，还是相反？

、

Dask文档指出，Dask的set_index比熊猫的(http://docs.dask.org/en/latest/dataframe-api.html#dask.dataframe.DataFrame.set_index任务中的set_index： df['time_index'] = df['time'] df = dd.fr

浏览 23提问于2019-06-06得票数 1

回答已采纳

2回答

为什么达斯克要花很长的时间来计算，而不管数据的大小

、、、、

为什么dataframe需要很长的时间来计算，而不管数据的大小如何。如何避免这种情况发生？背后的原因是什么？我目前正在使用ml.c5.2x大型实例类型来开发AWS，数据位于S3桶中。16.22 GB )nrows = shape[0].compute()print(df.npartitions) 我尝试在24700000条记录(~27M)上执行计算</e

浏览 7提问于2022-03-24得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

为什么在dask中计算带索引的拼图文件的形状会如此缓慢？

相关·内容

为什么在dask中计算带索引的拼图文件的形状会如此缓慢？

python dask to_parquet占用大量内存

如何在Dask中获取从拼图文件读取数据帧的单行值？

在单个列上执行操作时，dask是否加载所有列？

DASK dataframe.to_csv将文件存储在worker上，而不是本地

为什么dask按索引字段选择的速度这么慢？

使用查询的mongodb 'count‘非常慢

Dask无法使用连接的数据写入拼图

熊猫和木板的使用效率

慢达克性能相较于本地滑雪

为什么Dask在阅读时显示FileNotFound错误？

Dask DataFrame:对具有多行的groupby对象进行重采样

覆盖dask调度程序以并发加载多个工作人员上的数据

使用groupby的有效方法是什么&对大型数据集应用自定义函数并避免混洗？

如何在多个dask数组之间共享相同的索引

在使用netcdf文件中的scheduler=“dask.array”时，变量不是可选择的错误。

从延迟集合创建大型dask.dataframe时杀死/内存错误

我该如何获得达斯克数据中心的形状？

在Pandas中使用set_index比在Dask中转换更好，还是相反？

为什么达斯克要花很长的时间来计算，而不管数据的大小

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐