文章/答案/技术大牛

发布

社区首页 >问答首页 >在使用pyarrow write_dataset时可以指定压缩吗？

问在使用pyarrow write_dataset时可以指定压缩吗？
EN

Stack Overflow用户

提问于 2022-10-30 20:25:41

回答 1查看 61关注 0票数 0

我希望能够控制分区时使用的压缩类型(默认是snappy)。

import numpy.random
import pyarrow as pa
import pyarrow.dataset as ds

data = pa.table(
    {
        "day": numpy.random.randint(1, 31, size=100),
        "month": numpy.random.randint(1, 12, size=100),
        "year": [2000 + x // 10 for x in range(100)],
    }
)


ds.write_dataset(
    data,
    "./tmp/partitioned",
    format="parquet",
    existing_data_behavior="delete_matching",
    partitioning=ds.partitioning(
        pa.schema(
            [
                ("year", pa.int16()),
            ]
        ),
    ),
)

我不清楚，从医生那里，这是否真的有可能

parquet

partitioning

pyarrow

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-10-31 04:27:59

有一个选项可以用于指定文件选项。

file_options

pyarrow.dataset.FileWriteOptions，可选 FileFormat特定的写选项，使用FileFormat.make_write_options()函数创建。

您可以使用docs中提到的任何压缩选项- snappy、gzip、brotli、zstd、lz4、none。

下面的代码使用brotli压缩编写数据集。

import numpy.random
import pyarrow as pa
import pyarrow.dataset as ds

data = pa.table(
    {
        "day": numpy.random.randint(1, 31, size=100),
        "month": numpy.random.randint(1, 12, size=100),
        "year": [2000 + x // 10 for x in range(100)],
    }
)


file_options = ds.ParquetFileFormat().make_write_options(compression='brotli')

ds.write_dataset(
    data,
    "./tmp/partitioned",
    format="parquet",
    existing_data_behavior="delete_matching",
    file_options=file_options,
    partitioning=ds.partitioning(
        pa.schema(
            [
                ("year", pa.int16()),
            ]
        ),
    ),
)

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/74256499

复制

相似问题

问在使用pyarrow write_dataset时可以指定压缩吗？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在使用pyarrow write_dataset时可以指定压缩吗？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在使用pyarrow write_dataset时可以指定压缩吗？
EN