是否可以使用Dask和Fastparquet阅读器手动读取分区的拼图数据集？

文章/答案/技术大牛

发布

1回答

python、amazon-s3、dask、parquet、fastparquet

我创建了一个按如下方式分区的拼图数据集： 2019-taxi-trips/ - data.parquet -此分区方案是手动生成的，因此目录树中的任何位置都没有_metadata文件。现在我想将此数据集读取到Dask中。当数据</em

浏览 21提问于2020-10-08得票数 1

回答已采纳

2回答

为什么在dask中计算带索引的拼图文件的形状会如此缓慢？

dask、parquet、fastparquet

我已经从位于同一文件夹中的多个拼图文件中创建了一个拼图文件。每个文件对应一个分区。# `data_paths` contains the list of all the Parquet data filesfastparquet

浏览 39提问于2019-11-25得票数 3

回答已采纳

1回答

dask.dataframe.read_parquet耗时太长

python-3.x、dask

我试着这样读s3上的拼图：times = dd.read_parquet"profile_name": bucket_profile, engine='pyarrow',仅创建dask数据帧就需要很长时间

浏览 2提问于2019-05-14得票数 3

3回答

如何在Dask* read_parquet函数中过滤不同分区*

python、pandas、dask、parquet

我在从parquet文件加载dask数据帧时遇到了问题。当我尝试将拼接文件读取到dask数据框中时，我成功地过滤了年份窗口和逐行窗口，但仅选择了一些飞机失败。这里报告了我用来读取拼图文件的函数 ddf = dd.read_parquet(path, engine="pyarrow", index=False, filters=filters) 其中path是文件，或者，例如，不在同一范围窗口中的不

浏览 47提问于2021-06-22得票数 0

1回答

直到dask* 2.2.0 read_parquet过滤器参数似乎不再与pyarrow引擎一起工作*

dask、parquet、pyarrow

当我将dask从2.1.0升级到2.2.0 (或2.3.0)时，下面的代码改变了它的行为，并像以前一样停止过滤拼图文件。这只是一个附加的pyarrow引擎(快速拼接引擎仍然可以正常过滤)。我在Dask 2.2.0和2.3.0上尝试了pyarrow 0.13.1，0.14.0和0.14.1，但没有成功。import dask.dataframe as dd dd.read_parquet(directory, engine='

浏览 12提问于2019-08-28得票数 0

1回答

如何使用dask/dask-cudf将单个大型拼图文件读入多个分区？

dask、cudf

我正在尝试使用dask_cudf/dask读取单个大的parquet文件(size > gpu_size)，但它当前正在将其读取到单个分区中，我猜测这是从文档字符串推断出的预期行为： dask.dataframe.read_parquetstorage_options=None, engine='auto', gather_statistics=None, **kwargs): Read

浏览 18提问于2019-10-18得票数 3

回答已采纳

1回答

dask read_parquet方法的过滤给出了不需要的结果

python、dataframe、filtering、dask、fastparquet

我正在尝试使用dask read_parquet方法和filters kwarg读取拼图文件。然而，有时它不会根据给定的条件进行过滤。示例:使用dates列创建和保存数据框架import numpy as np ddf =

浏览 0提问于2018-07-09得票数 8

回答已采纳

4回答

可以分块读取拼图文件吗？

parquet

例如，pandas的read_csv有一个chunk_size参数，它允许read_csv在CSV文件上返回一个迭代器，这样我们就可以分块读取它。拼图格式以块的形式存储数据，但是没有像read_csv这样的有文档记录的方法来读入块。有没有办法以块的形式读取拼图文件？

浏览 3提问于2019-11-29得票数 8

1回答

Dask在保存到镶木地板时使用所有内存

dask、dask-dataframe

我在使用dask时遇到了问题。与熊猫相比，它非常慢，特别是在读取高达40G的大型数据集时。经过一些额外的处理后，数据集增长到大约计算列，其中主要是计算(这是相当慢的，特别是当我像这样调用float64：output = df[["date", "permno"]].compute(scheduler='threading')时) 我认为我可以</em

浏览 3提问于2021-09-21得票数 0

1回答

选择子集后将其转换为pandas时，Dask* dataframe内存不足*

python、python-3.x、pandas、dataframe、dask

所以我有一个包含160M记录和240列的拼图文件。因此，我使用dask在python中使用EMR CLuster m5.12xlarge加载它。import dask.dataframe as dd 现在我需要其中一列的值计数和归一化值计数：请注意，这里

浏览 1提问于2021-09-23得票数 0

3回答

带有pyarrow内存的dask* read_parquet发生故障*

dask、pyarrow、fastparquet

我正在使用dask来写和读拼花。我使用快速拼接引擎进行写作，使用pyarrow引擎进行阅读。我的worker有1 gb的内存。对于fastparquet，内存使用率很好，但当我切换到pyarrow时，它就会崩溃，并导致worker重新启动。我有一个可重现的例子，在一个1 1gb内存限制的worker上，pyarrow失败了。实际上，我的数据集要比

浏览 0提问于2018-06-15得票数 3

1回答

将多个CSV转换为单分区拼图数据集

pandas、parquet、fastparquet

我有一组CSV文件，每个文件对应一年的数据，每个文件中都有YEAR列。我想把它们转换成单个拼图数据集，按年份划分，以便以后在熊猫中使用。问题是，所有年份合并在一起的数据帧太大，无法放入内存。有没有可能一个接一个地迭代地编写拼花分区？我使用fastparquet作为引擎。简化的代码示例。这段代码会增加内存使用量并导致崩溃。, 2020): df = pd.r

浏览 15提问于2020-08-21得票数 0

回答已采纳

1回答

DASK Memory Per Worker指南

python、dask、dask-distributed

我的场景是:我在S3上将数据拆分为52个gzip压缩的拼图文件，每个文件在内存中的未压缩大小约为100MB，总数据集大小约为5.5 52，行大小正好为100,000,000行。现在，我正在提取拼图文件，并立即对一个列进行重新分区，最终得到大约480个分区，每个分区大约11Mb。然后，我将使用map_partitions来完成主要工作。这对于小的数据</e

浏览 32提问于2019-09-20得票数 1

1回答

不要从简单的(非蜂巢) Parquet文件中恢复分区

pandas、dask、parquet、fastparquet、dask-dataframe

关于Dask+Parquet，我有一个两部分的问题.我试图在从分区Parquet文件中创建的dask数据文件上运行查询，如下所示：import dask.dataframeas dd ##### Generate random data to Simulate Process creating a Parquet file ###我在这里的目标是能够<e

浏览 2提问于2020-04-07得票数 0

回答已采纳

1回答

在加载多个拼花文件时保留dask数据分区

python、dataframe、dask、fastparquet

我有一些以时间为索引的数据帧中的时间序列数据。索引被排序，数据存储在多个拼花文件中，每个文件中有一天的数据。我使用dask 2.9.1在这里，我得到两个分区和(N

浏览 1提问于2020-01-02得票数 1

回答已采纳

1回答

使用dask有效地读取blob存储中的部分列

python、dask、parquet、fastparquet

如何才能有效地读取托管在云滴存储(例如S3 /)中的拼花文件的某些列？柱状结构是拼花文件格式的主要优点之一，因此有选择地读取列可以减少I/O负载。将数据存储在blob存储库中也是很自然的，以便在云中运行大规模的工作负载。然而，一旦一个拼花文件被存储为一个blob，大多数库(dask、fastparquet、py箭头)都不能真正利用这一点，因为底层的fseek实

浏览 0提问于2019-12-01得票数 2

回答已采纳

1回答

如何逐行加载拼图文件

python、parquet

为了节省笔记本电脑上的空间，我通过dask保存了一个相当大的数据集作为拼图文件。想知道是否有一种方法可以逐行读取镶木地板文件。谢谢你的帮助。

浏览 12提问于2019-03-28得票数 0

回答已采纳

1回答

如何将.msg文件加载到pyspark RDD中？

apache-spark、pyspark、outlook、rdd、azure-databricks

我对pyspark编程比较陌生，因此正在寻找一种从数据库文件系统(dbfs)中读取一堆outlook (.msg)文件的方法。在执行下面的代码行时，我得到了一些垃圾unicode数据，如以下输出所示：输出： [(u'dbfs:/..ufffd\ufffd\ufffd\ufffd\ufffd\ufffd\ufffd\ufffd\ufffd\ufffd\ufffd\ufff

浏览 0提问于2019-07-25得票数 0

1回答

在dask* / xarray中处理大型时间序列的最佳方法是什么？*

dask、python-xarray

我有17,000个CSV文件，每个文件都是按时间戳排序的(有些文件缺少数据)。CSV文件总数约为85 my，比我的32 my内存大得多。我正试图找出最好的方法，把它们变成一个时间对齐，内存不足的数据结构，这样我就能计算出像PCA这样的东西。，什么是正确的方法？(我尝试用xarray.DataSet设置一个dim=(filename, time)，然后尝试将每个CSV文件上的xr.merge()放到DataSet中，但是每次插入都会变

浏览 2提问于2021-09-27得票数 1

1回答

Dask无法使用连接的数据写入拼图

pandas、dask、parquet

我正在尝试做以下几件事：使用pandas读取.dat文件，将其转换为dask数据帧，并将其连接到我从拼图文件中读取的另一个dask数据帧，然后输出到新的拼图文件。在某些情况下，这是一个ETL进程，随着每天增加的数据量，我很快就会耗尽历史数据集和组合数据集上的</em

浏览 26提问于2020-06-13得票数 1

点击加载更多