使用PyArrow从多个文件中读取已分区的宗地数据集，然后根据文件名添加分区键

PyArrow是一个用于在Python和Apache Arrow之间进行高效数据传输的工具。它提供了一种简单的方式来读取和写入各种数据格式，包括分区数据集。

在使用PyArrow从多个文件中读取已分区的宗地数据集时，可以按照以下步骤进行操作：

导入PyArrow库：

import pyarrow as pa

创建一个Schema对象来定义数据集的结构：

schema = pa.schema([
    ('column1', pa.int32()),
    ('column2', pa.string()),
    ...
])

创建一个Table对象来存储数据：

table = pa.Table.from_pandas(dataframe, schema=schema)

这里的dataframe是一个包含数据的Pandas DataFrame对象。

将Table对象写入到分区文件中：

# 定义分区键
partition_keys = ['partition_key1', 'partition_key2', ...]

# 写入分区文件
pa.write_to_dataset(table, root_path='path/to/partitioned_data', partition_cols=partition_keys)

这将根据指定的分区键将数据写入到多个文件中。

从分区文件中读取数据：

# 读取分区文件
dataset = pa.dataset('path/to/partitioned_data')

# 获取分区键
partition_keys = dataset.partition_keys

# 根据分区键过滤数据
filtered_dataset = dataset.filter(partition_key1='value1', partition_key2='value2', ...)

# 读取数据
table = filtered_dataset.to_table()

通过以上步骤，我们可以使用PyArrow从多个文件中读取已分区的宗地数据集，并根据文件名添加分区键。这样可以方便地对数据进行分析和处理。

对于腾讯云相关产品，可以使用腾讯云对象存储（COS）来存储分区文件，使用腾讯云函数（SCF）来处理数据，使用腾讯云数据库（TDSQL）来存储和查询结果数据。具体的产品介绍和链接如下：

腾讯云对象存储（COS）：提供高可靠、低成本的云端存储服务，适用于存储和处理大规模数据。详细信息请参考腾讯云对象存储（COS）
腾讯云函数（SCF）：无服务器计算服务，可实现按需运行代码的能力，适用于处理数据和执行计算任务。详细信息请参考腾讯云函数（SCF）
腾讯云数据库（TDSQL）：提供高性能、可扩展的数据库服务，适用于存储和查询结构化数据。详细信息请参考腾讯云数据库（TDSQL）

以上是使用PyArrow从多个文件中读取已分区的宗地数据集，并根据文件名添加分区键的完善且全面的答案。

页面内容是否对你有帮助？

有帮助

没帮助

使用PyArrow从多个文件中读取已分区的宗地数据集，然后根据文件名添加分区键

、、、

我有一堆parquet文件，每个文件都包含我的数据集的一个子集。假设文件名为data-N.parquet，其中N是一个整数。我可以全部读取它们，然后将其转换为pandas数据帧： files = glob.glob("data-**.parquet") files,它希望在最终数据帧中有一个额外的列，指示<

浏览 48提问于2021-09-29得票数 1

回答已采纳

1回答

Azure Blob上的分区Parquet文件(pyarrow)

、、

我一直在用熊猫手动划分文件(创建一个索引或多个索引，然后为一个循环中的每个索引编写一个单独的拼花文件)到Azure。但是，当读取py箭头的文档时，我发现可以创建一个“dataset”，其中包括分区数据的文件夹结构。

浏览 6提问于2019-10-30得票数 2

4回答

使用谓词筛选pyarrow.parquet.ParquetDataset中的行

、、、、

我在s3上存储了一个拼花数据集，我想从该数据集中查询特定的行。我可以使用petastorm实现这一点，但现在我只想使用pyarrow。以下是我的尝试：import s3fs ) df = dataset.read_pandas().

浏览 1提问于2019-06-10得票数 23

回答已采纳

1回答

如何为特定的数据集确定Cassandra中分区程序的散列函数，以确保数据在多个集群中的均匀分布？

、、、

正如我们从Cassandra的文档[]中知道的那样，分区器应该使数据均匀地分布在多个节点上，以避免读取热点。我在这里的查询是，我们有不同的数据集，它们有不同的分区键。例如，一个可以使用uuid类型数据设置分区键，另一个可以将名字和姓氏设置为分区键</

浏览 16提问于2022-01-17得票数 1

回答已采纳

1回答

为同一数据建立多个表的Cassandra数据建模

、

卡桑德拉数据建模查询你好，我正在处理的数据模型如下所示，对于相同的数据集，使用不同的表来满足不同类型的查询。这些数据主要存储通过电子邮件、网络、移动应用、短信等多种渠道发送的一些活动的事件数据。Cassandra查询:查询始终使用分区键+主键，包括datetime字段。订阅id包含在主键中，

浏览 2提问于2021-04-03得票数 1

1回答

星火联接:对同一分区中的特定列具有相同值的记录的分组

、

我们有两个Hive表，它们是使用join键读取和连接的，我们将其命名为user_id。然后，我们将这个连接的数据集写入S3，并将其注册为用于后续任务的第三个表，以便使用这个已连接的数据集。连接数据集中的其他列之一称为keychain_id。我们希望将属于同一个keychain_id的所有用户

浏览 1提问于2020-02-26得票数 2

回答已采纳

5回答

如何使用python中的py箭头从S3读取已分区的拼图文件

、、、、

我寻找使用python从s3中读取来自多个分区目录的数据的方法。的ParquetDataset模块具有从分区读取数据的能力。的文档，我尝试使用s3fs作为文件系统，即： >>> dataset = pq.ParquetDataset(a,filesystem

浏览 8提问于2017-07-13得票数 60

回答已采纳

1回答

作为并行任务的读写

、、

寻找从数据源(如Azure Table )读取数据的最佳方法，这是一种耗时的方法，将数据转换为json或csv，并根据分区键使用文件名写入本地文件。考虑的一种方法是在具有固定时间间隔的计时器经过事件触发器上运行写入文件任务。

浏览 2提问于2013-10-26得票数 0

回答已采纳

1回答

尽管使用了过滤器，但是Pyarrow* ParquetDataset.read()在已分区的S3数据集中速度很慢。*

、、、

尽管使用了filters标志，但是尝试从大型拼花数据集读取一天的速度非常慢。我使用过滤器的方式有什么问题吗？若然，我怎样才能纠正这个问题呢？我有一个巨大的拼花数据集，其中包含S3中的数百万个文件，这些文件都是由分区的星星之火作业生成的。分区模式如下所示： s

浏览 1提问于2019-11-15得票数 2

回答已采纳

2回答

蜂箱分区、火花分区和加入火花-它们之间的关系

、、、

我有两个外部Hive表；这两个表都由S3桶支持，并由date分区；因此，在每个桶中都有带有名称格式date=<yyyy-MM-dd>/<filename>的键。").as[Table2Row]问题2Table1Row(date: Date, id: String, ...)(&

浏览 4提问于2018-04-25得票数 5

2回答

DynamoDB表结构

我们希望使用AWS DynamoDB来存储应用程序日志。来自我们系统中多个组件的日志将存储在这里。我们期待着大量的写操作和极少量的读取。我们用来写入DynamoDB的客户机为分区键生成一个UUID，但是使用它会使实际搜索变得困难。最突出的搜索案例是，基于JobId /文件名<

浏览 5提问于2016-12-13得票数 0

1回答

从非分区单元表到分区单元表的PySpark数据加载的性能优化

、、、

我们有一个要求，从一个非分区的work_db.customer_tbl外部蜂窝表通过PySpark从一个分区的外部的蜂巢表通过PySpark摄取数据，以前是通过hive查询完成的。因此，我们有一个简单的PySpark脚本，它使用一个插入查询(与前面使用的单元查询相同)来使用spark.sql()命令摄取数据。但是，我们有一些严重的性能问题，因为我

浏览 2提问于2021-03-25得票数 0

2回答

Spark/EMR能否从s3多线程读取数据

、、、

由于一些不幸的事件序列，我们最终得到了一个存储在s3上的非常零散的数据集。表元数据存储在Glue上，数据写入bucketBy，并以拼图格式存储。因此，文件的发现不是问题，spark分区的数量等于存储桶的数量，这提供了很好的并行性。当我们在Spark/EMR上加载这个数据集时，我们最终让每个spark分区</e

浏览 2提问于2020-01-20得票数 2

2回答

使用py箭头从已分区的拼花数据集中读取特定分区

、、、

我有一个有点大的(~20 GB)分区数据集的拼花格式。我想使用pyarrow从数据集中读取特定的分区。若要创建随机数据集，请执行以下操作：from itertools import product, chain from uuid1的所有值，只读取

浏览 3提问于2017-12-28得票数 10

回答已采纳

2回答

如何为Azure Cosmos DB确定一个好的分区密钥

、、

我是Azure Cosmos DB的新手，但我想对以下内容有一个生动的理解：非常感谢!

浏览 0提问于2018-06-16得票数 5

回答已采纳

2回答

具有DynamoDB触发器的Lambda在表分区键上具有超过500000个不同的值

、、、

有两根主要的柱子日期: FileName 20190617 abcd.json 2

浏览 2提问于2019-06-19得票数 1

回答已采纳

2回答

为什么我不需要在查询中包含所有的分区键？

、

在阅读一篇博文时，有人说： CREATE TABLE usertable ( name text, active然而，根据博客文章，我也必须包括timestamp。有

浏览 2提问于2018-11-28得票数 0

回答已采纳

1回答

基于Azure搜索的分区CosmosDb集合自动索引

、

我们正在做一些工作，以便从CosmosDb集合中获得自动索引。此集合是分区的，以便能够不受限制地增加RUs。我们希望为每个CosmosDb分区创建一个Azure搜索索引，但是从CosmosDb读取分区键提要会返回分区键(例如'0‘、'1’等等)。而不是划分集合的实际值(在我们的例子中，区域性为'en-US‘、

浏览 1提问于2019-03-26得票数 0

回答已采纳

2回答

AWS雅典娜的分区数据在S3中产生了许多小文件

、、、、

我有一个大型数据集(>40G)，我想将其存储在S3中，然后使用雅典娜进行查询。按照的建议，我可以将数据存储在以下层次目录结构中，以便使用MSCK REPAIR自动添加分区，同时从dataset创建表。s3://yourBucket/pathToTable/<PARTITION_COLUMN_NAME>=<VALUE&g

浏览 1提问于2018-02-09得票数 7

回答已采纳

1回答

IoT集线器仅将消息路由到事件集线器的一个分区

、、

我在Azure中建立了一个数据管道，在那里我将消息发送到IoTHub，然后它将这些消息路由到EventHub。当我使用标准的EventProcessorHost方法从EventHub中读取数据时，我发现只有一个分区被读取。我假设实际上只有一个分区将消息路由到它。我没有在任何地方指定分区键，并且希望使用循环将消息路由到事件中心<e

浏览 15提问于2019-03-23得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用PyArrow从多个文件中读取已分区的宗地数据集，然后根据文件名添加分区键

相关·内容

使用PyArrow从多个文件中读取已分区的宗地数据集，然后根据文件名添加分区键

Azure Blob上的分区Parquet文件(pyarrow)

使用谓词筛选pyarrow.parquet.ParquetDataset中的行

如何为特定的数据集确定Cassandra中分区程序的散列函数，以确保数据在多个集群中的均匀分布？

为同一数据建立多个表的Cassandra数据建模

星火联接:对同一分区中的特定列具有相同值的记录的分组

如何使用python中的py箭头从S3读取已分区的拼图文件

作为并行任务的读写

尽管使用了过滤器，但是Pyarrow* ParquetDataset.read()在已分区的S3数据集中速度很慢。*

蜂箱分区、火花分区和加入火花-它们之间的关系

DynamoDB表结构

从非分区单元表到分区单元表的PySpark数据加载的性能优化

Spark/EMR能否从s3多线程读取数据

使用py箭头从已分区的拼花数据集中读取特定分区

如何为Azure Cosmos DB确定一个好的分区密钥

具有DynamoDB触发器的Lambda在表分区键上具有超过500000个不同的值

为什么我不需要在查询中包含所有的分区键？

基于Azure搜索的分区CosmosDb集合自动索引

AWS雅典娜的分区数据在S3中产生了许多小文件

IoT集线器仅将消息路由到事件集线器的一个分区

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐