从数据库读取时在Dask dataframe中设置分区大小的问题_在Python中按顺序从文件夹读取帧时出现的问题_discord.py:从SQLite3数据库中读取多个用户时出现的问题 - 腾讯云开发者社区

python、dask

我尝试从表中读取，并将每个块的大小设置为256MB，而不指定分区和分区。但是当我检查每个分区的大小时，它小于60MB 模拟问题的最小完整代码：生成数据： import stringcreate_table(cur) conn.co

浏览 11提问于2019-05-04得票数 0

1回答

使用从拼花文件创建的dataframe时内存使用量过高

parquet、dask

1)因此，我的问题是，为什么这些简单的操作会使用Dask Dataframe来破坏内存的使用，但是当我使用Pandas Dataframe将所有内容加载到内存中时却能很好地工作？我注意到了npartitions=1，我在文档中看到read_parquet“将Parquet数据目录读取到Dask.dataframe中，每个分区只有

浏览 0提问于2018-12-24得票数 6

回答已采纳

1回答

dask.read_parquet导致OOM错误

python、parquet、dask

我一直在使用dask对多个csv文件执行数据清理。import Clientcols_to_keep = ["barco

浏览 7提问于2018-08-08得票数 1

回答已采纳

1回答

如何使用dask/dask-cudf将单个大型拼图文件读入多个分区？

dask、cudf

我正在尝试使用dask_cudf/dask读取单个大的parquet文件(size > gpu_size)，但它当前正在将其读取到单个分区中，我猜测这是从文档字符串推断出的预期行为： dask.dataframe.read_parquetstorage_options=None, engine='auto', gather_statistics=None, **k

浏览 18提问于2019-10-18得票数 3

回答已采纳

1回答

如何使用Dask从google云存储中读取多个大CSV文件块而不同时重载内存

python、pandas、postgresql、dask、dask-distributed

我试图从google存储中读取大量的csv文件(多个文件)。我使用Dask分发库进行并行计算，但我面临的问题是，虽然我提到了块大小(100 my )，但我不知道如何按分区读取分区并将其保存到postgres数据库中，这样我就不想让内存超载。processes=False) import dask.dataframe as

浏览 0提问于2019-06-30得票数 2

回答已采纳

1回答

我知道有一些关于这个主题的问题，但我似乎不能有效地进行。我的机器上运行着包含8GB of memory的大型输入数据集(2-3 GB)。我使用的是安装了pandas 0.24.0的spyder版本。本质上，我将输入文件chunk成较小的片段，通过一些代码运行它，然后导出较小的输出。然后我删除分块的信息以释放内存。但在整个操作过程中，内存仍然会不断积累，最终会花费类似的时间。objectdtypes: ob

浏览 13提问于2020-05-18得票数 3

1回答

为什么达斯克的"to_sql“比熊猫花了更多的时间？

python、pandas、amazon-web-services、amazon-redshift、dask

我在ETL中使用dask而不是pandas，即从S3存储桶中读取CSV，然后进行一些所需的转换。Until here - dask读取和应用转换的速度比pandas快！最后，我使用to_sql将转换后的数据转储到Redshift。在dask中这个to_sql转储比在pandas中花费更多的时间。有没有可能缩短这段时间？如果不是

浏览 2提问于2021-09-27得票数 1

3回答

如何将Dask.DataFrame转换为pd.DataFrame？

python、pandas、dask

如何将生成的dask.DataFrame转换为pandas.DataFrame (假设我已经完成了繁重的任务，只想将sklearn应用到聚合结果中)？

浏览 27提问于2016-08-18得票数 43

回答已采纳

1回答

Dask读取CSV，将分区设置为CSV长度

python、csv、distributed、dask

我正在编写代码，这些代码将从一组名为my_file_*.csv的CSV读取到dataframe中。我尝试重置索引，然后根据每个CSV的长度来设置分区，但看起来Dask dataframe的索引并不

浏览 5提问于2017-03-31得票数 6

回答已采纳

1回答

dataframe连接和重新分区大文件，用于时间序列和相关性。

python、dataframe、concatenation、dask

我们可能在较低的时间(例如48小时、1小时、月等)重新采样。在长达11年的时间里，把这些关联想象成11年。数据目前在11个单独的拼花文件中(每年一个)，从11个.txt文件中单独生成Pandas。熊猫没有对任何这些文件进行分区。在内存中，这些拼花文件中的每一个都加载了大约20 In的内存。预期的目标机器只有1

浏览 29提问于2022-06-20得票数 1

1回答

使用dask.dataframe逐个分区从CSV文件中读取尾部

python、pandas、csv、dataframe、dask

使用Dash，我们可以轻松地读取CSV文件，并使用head读取第一行，即使在多个分区中也是如此。import dask.dataframe as dd但我想在多个分区上读取CSV文件的最后几行，如下所示： import dask.dataframe

浏览 1提问于2018-03-14得票数 4

1回答

在加载多个拼花文件时保留dask数据分区

python、dataframe、dask、fastparquet

我有一些以时间为索引的数据帧中的时间序列数据。索引被排序，数据存储在多个拼花文件中，每个文件中有一天的数据。我使用dask 2.9.1在我的实际数据中，我有一个拼花文件公关

浏览 1提问于2020-01-02得票数 1

回答已采纳

2回答

为什么达斯克要花很长的时间来计算，而不管数据的大小

python、pandas、dask、dask-distributed、dask-dataframe

为什么dataframe需要很长的时间来计算，而不管数据的大小如何。如何避免这种情况发生？背后的原因是什么？我目前正在使用ml.c5.2x大型实例类型来开发AWS，数据位于S3桶中。对于nrow 5120000 (~5M)，有23个分区，执行所花费的时间是CPU时间:用户4分钟50，sys: 12 s，总计:5 5min 2 s，墙时间4 5min 46 s。对于具有一个分区的nrow 7697351 (~7

浏览 7提问于2022-03-24得票数 0

回答已采纳

3回答

16M行csv与dask的并行转换

python、csv、dataframe、parquet、dask

以下操作工作正常，但耗时近2h：ddf.read_csv('data.csv').to_parquet('data.pq') 有办法并行化吗

浏览 1提问于2018-05-24得票数 4

回答已采纳

2回答

将Dask分区写入单个文件

python、dask

对于dask来说，我有一个1GB CSV文件，当我在dask dataframe中读取它时，它创建了大约50个分区，在我编写文件时，它创建的文件和分区一样多。是否有将所有分区写入单个CSV文件的方法，以及是否有方法访问分区？谢谢。

浏览 3提问于2016-09-19得票数 34

回答已采纳

1回答

dask read_parquet内存不足

dask

我正在尝试读取一个很大的(内存不能容纳)镶木地板数据集，然后从中提取样本。数据集的每个分区都可以完美地存储在内存中。数据集在磁盘上大约有20 in的数据，分为104个分区，每个分区大约200Mb。我不想在任何时候使用超过40‘m的内存，所以我相应地设置了n_workers和memory_limit。我的假设是，Dask将加载它能处理的尽可能多<

浏览 66提问于2019-09-25得票数 0

1回答

read_csv:期望每个分区执行3个任务，但只有一个任务

dataframe、task、dask

该链接显示了在木星笔记本中运行3行代码的结果：该图由99个节点组成，因为每个分区都需要创建三个操作:读取原始数据、将数据拆分为适当大小的块和初始化基础DataFrame对象。总共有33个分区

浏览 2提问于2021-01-04得票数 0

1回答

选择子集后将其转换为pandas时，Dask dataframe内存不足

python、python-3.x、pandas、dataframe、dask

所以我有一个包含160M记录和240列的拼图文件。因此，我使用dask在python中使用EMR CLuster m5.12xlarge加载它。import dask.dataframe as dd 现在我需要其中一列的值计数和归一化值计数：请注意，这里我有总的1 npartitions和

浏览 1提问于2021-09-23得票数 0

1回答

如何在Dask中获取从拼图文件读取数据帧的单行值？

python、dask

问题: DASK数据帧返回多行的pandas数据帧，每行都有相同的索引：我正在阅读许多拼图文件：拼图文件中的每一行都有一个数组似乎在</e

浏览 48提问于2019-06-05得票数 0

1回答

为什么默认情况下dask* ()只检查第一个分区？*

python、pandas、dataframe、dask

dask版本1.1.4过滤后的dask.dataframe似乎将行保留在原始分区中。如果一个分区的所有行都被过滤掉，那么分区将保持为空，但仍保留在生成的dask.dataframe中。如果len(第一个分区)<

浏览 0提问于2019-07-03得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云