如何使用pyarrow存储自定义拼图数据集元数据？_如何使用pyarrow编写拼图面板元数据？_使用Paypal事务存储自定义元数据 - 腾讯云开发者社区

python、pandas、parquet、pyarrow

使用pyarrow，我可以编写2.0版的拼花文件。 pyarrow.parquet.write_table方法具有参数'version‘。但是pyarrow.parquet.read_table方法没有参数'version‘。似乎它只能读取1.0版的拼花文件。如何用pyarrow读取2.0版本的拼图文件？

浏览 0提问于2019-07-26得票数 0

1回答

使用Pyarrow读取分区的拼图文件会占用太多内存

pandas、hdfs、parquet、impala、pyarrow

我有一个由分区的拼图文件组成的大型Impala数据库。我直接使用HDFS将一个Parquet分区复制到本地磁盘。此分区总共有15 of，由许多文件组成，每个文件大小为10MB。我正在尝试使用Pandas与Pyarrow引擎或Pyarrow直接读取，但它在内存中的大小使用了超过60‘t的RAM，并且它在使用所有内存之前不会读取整个数据集。内存使用量如此之大的原因可能是什么？

浏览 32提问于2019-02-02得票数 1

1回答

dask.dataframe.read_parquet耗时太长

python-3.x、dask

我试着这样读s3上的拼图： import dask.dataframe as dd s3_path = "s3://my_bucket/my_table" times = dd.read_parquet( s3_path, storage_options={ "client_kwargs": { "endpoint_url": bucket_endpoint_url,

浏览 2提问于2019-05-14得票数 3

1回答

如何使用pyarrow将自定义元数据存储到ParquetDataset？例如，如果我使用Dask创建了一个地块数据集 import dask dask.datasets.timeseries().to_parquet('temp.parq') 然后我可以使用pyarrow来读取它。 import pyarrow.parquet as pq dataset = pq.ParquetDataset('temp.parq') 但是，我用来为单个拼图文件(在How to write Parquet metadata with pyarrow?中概述)写入元数据的相同

浏览 48提问于2021-09-10得票数 7

1回答

Python:获取ParquetDataset的行数？

python、parquet

如何获取以包含多个拼图文件的文件夹形式构建的ParquetDataset的行数。我试过了 from pyarrow.parquet import ParquetDataset a = ParquetDataset(path) a.metadata a.schema a.commmon_metadata 我希望在不读取数据集的情况下计算出总的行数，因为它可能非常大。那么最好的方法是什么呢？

浏览 32提问于2020-04-01得票数 1

回答已采纳

2回答

使用pandas和dask合并具有不同模式的地块文件

python、pandas、dask、parquet、pyarrow

我有一个包含大约1000个文件的拼图目录，模式是不同的。我想通过文件重新分区将所有这些文件合并到最佳数量的文件中。我使用pandas和pyarrow从目录中读取每个分区文件，并将所有数据帧连接在一起，并将其作为一个文件写入。使用这种方法，当数据大小增长时，我会遇到内存问题并被杀死。所以我选择了另一种方法来完成这个过程。我首先读取一堆文件，使用concat合并，然后写入新的拼接目录。类似地，第二次，我读取了第二组文件，连接为一个数据帧，并从第二个合并的数据帧中获取了一条记录。现在我有了第二个合并数据帧中的一条记录，再次从文件中读取第一个合并数据帧，并将其与第二个合并数据帧中的记录合并。然后，

浏览 11提问于2020-05-22得票数 1

2回答

如何使用pyarrow编写拼图面板元数据？

python、parquet、pyarrow

我使用pyarrow来创建和分析具有生物信息的镶嵌板表格，我需要存储一些元数据，例如数据来自哪个样本，它是如何获得和处理的。 Parquet似乎支持，但我找不到如何通过pyarrow编写它。我能找到的最接近的是，但这似乎有点过分了，因为我的元数据对于文件中的所有行组都是相同的。有没有办法用pyarrow编写文件范围内的Parquet元数据？

浏览 17提问于2018-09-01得票数 17

回答已采纳

1回答

如何利用IO流生成PyArrow数据集？

pyarrow

我有一个python程序，它以文件的形式读取一个拼图文件，并试图用它来构造一个pyarrow数据集。我可以使用以下方法将文件编辑器读入比罗罗表中： import pyarrow.parquet as pq table = pq.read_table(file_reader) 但是，将文件读取程序直接传递给数据集初始化程序会导致错误。这是有意义的，因为pyarrow文档显示ds.dataset函数不接受filereader作为数据源： import pyarrow.dataset as ds dataset = ds.dataset(file_reader)

浏览 8提问于2022-01-25得票数 0

2回答

如何在Python中使用pyarrow读取带条件的拼图文件

python、filter、conditional-statements、parquet、pyarrow

我从数据库中创建了一个包含三列(id、author、title)的拼图文件，并想要在有条件(title='Learn Python')的情况下读取该拼图文件。下面提到的是我在这个POC中使用的python代码。 import pyarrow as pa import pyarrow.parquet as pq import pandas as pd import pyodbc def write_to_parquet(df, out_path, compression='SNAPPY'): arrow_table = pa.Table.from_pandas(

浏览 0提问于2018-02-10得票数 9

1回答

如何使用Pyarrow实现串流写入效果

parquet、pyarrow

我拥有的数据是一种流数据。我想把它们存储到一个单独的拼图文件中。但是Pyarrow每次都会覆盖拼图文件。那么我该怎么做呢？我试着不关闭写入器，但这似乎是不可能的，因为如果我不关闭它，那么我就无法读取这个文件。包是这样的： import pyarrow.parquet as pp import pyarrow as pa for name in ['LEE','LSY','asd','wer']: writer=pq.ParquetWriter('d:/test.parquet', table.sche

浏览 16提问于2019-06-25得票数 1

2回答

使用PyArrow读取CSV

python、pyarrow

我有很大的CSV文件，我最终想要转换成拼图。由于内存限制和处理空值(在我的数据中很常见)的困难，Pandas不会提供帮助。我检查了PyArrow文档，有读取拼图文件的工具，但我没有看到任何有关读取CSV的内容。我是不是错过了什么，或者这个特性是否与PyArrow不兼容？

浏览 2提问于2018-09-20得票数 4

1回答

配置单元表迁移到不同环境

azure、hive、azure-hdinsight

我在Azure HDInsight WASB上有一个配置单元表，想要从生产环境迁移/复制到QA环境，看起来我只能通过导出/导入来完成。 1)将表从拼图导出到文件(包括元数据) 2)将AzCopy从生产存储导出到QA存储3)导入表

浏览 2提问于2018-09-06得票数 1

1回答

pyarrow作为lambda层

amazon-web-services、aws-lambda、aws-lambda-layers

我需要帮助才能让pyarrow作为lambda函数的lambda层。我正在尝试读/写拼图文件，我得到下面的错误，"errorMessage"：“找不到可用的引擎；尝试使用：'pyarrow'，‘for parquet’。\n拼图支持需要pyarrow或for parquet”。我尝试通过在我的系统中安装pyarrow来创建层，命令如下: pip3 install pandas pyarrow -t build/python/lib/python3.7/site-packages/ --system 但是zip文件是在大于300mb的情况下创建的，因此我不能让

浏览 9提问于2020-01-22得票数 2

1回答

parquet:具有不同列的数据集文件

parquet、pyarrow、apache-arrow

使用pyarrow。我有一个由多个拼图文件组成的拼图数据集。如果文件之间的列不同，那么我会得到一个"ValueError: Schema in was different“。有没有办法避免这种情况？这意味着我想要一个由文件组成的数据集，每个文件包含不同的列。如果数据集的特定组件文件中没有列，我猜可以通过pyarrow将缺少的列的值填充为na来完成此操作。谢谢

浏览 0提问于2019-07-22得票数 0

1回答

使用pyarrow将字符串时间戳转换为日期时间

python、pyarrow

在写入拼图文件之前，有没有可能将pyarrow表中的字符串时间戳转换为日期时间格式？

浏览 0提问于2018-03-03得票数 1

1回答

无法读取拼图文件，出现Gzip代码失败错误

python-3.x、pyspark、parquet、pyarrow、fastparquet

我正在尝试转换拼花到csv文件与pyarrow。 df = pd.read_parquet('test.parquet') 上面的代码可以很好地处理从github下载的示例拼图文件。但是当我尝试处理实际的大拼图文件时，它给出了以下错误。 File "_parquet.pyx", line 734, in pyarrow._parquet.ParquetReader.read_all File "error.pxi", line 79, in pyarrow.lib.check_status pyarrow.lib.ArrowIOError:

浏览 17提问于2018-08-14得票数 0

1回答

pyarrow保存python对象

python、python-3.x、serialization、pyarrow

我已经尝试了一段时间，阅读他们的文档，但我仍然觉得我不能完全掌握它。我看到了他们对任意python对象进行序列化的depcrecated方法，但由于它已被弃用，我想知道保存对象列表或任意python对象的正确方法是什么？什么时候你还想费心使用pyarrow呢？

浏览 0提问于2020-10-29得票数 2

1回答

解析pyarrow.parquet.ParquetDataset对象的模式

pyspark、pyarrow

我正在使用pyarrow从s3读取拼图数据，我希望能够解析模式并将其转换为适合在Spark外部运行mLeap序列化模型的格式。这需要解析模式。如果我有一个Pyspark数据帧，我可以这样做： test_df = spark.read.parquet(test_data_path) schema = [ { "name" : field.simpleString().split(":")[0], "type" : field.simpleString().split(":")[1] } for field in test_df

浏览 47提问于2018-12-20得票数 0

1回答

使用pyarrow重新划分pyarrow表的大小，并将其写入几个拼图文件？

python、parquet、partition、pyarrow

正如标题所述，我想通过使用pyarrow并写入几个拼图文件来按大小(或行组大小)对pyarrow表进行重新分区。我已经查看了pyarrow文档，并确定了分区数据集章节，这似乎是一个方向。不幸的是，它表明可以按列内容进行分区，但不能按大小(或行组大小)进行分区。那么，从一个表开始，我如何控制写入步骤，以便以受控的大小x MB写入多个文件？(或行组大小) import pandas as pd import numpy as np import pyarrow as pa import pyarrow.parquet as pq file = 'example.parquet

浏览 36提问于2020-12-15得票数 1

回答已采纳

1回答

直到dask 2.2.0 read_parquet过滤器参数似乎不再与pyarrow引擎一起工作

dask、parquet、pyarrow

当我将dask从2.1.0升级到2.2.0 (或2.3.0)时，下面的代码改变了它的行为，并像以前一样停止过滤拼图文件。这只是一个附加的pyarrow引擎(快速拼接引擎仍然可以正常过滤)。我在Dask 2.2.0和2.3.0上尝试了pyarrow 0.13.1，0.14.0和0.14.1，但没有成功。我之前的工作设置是: Dask 2.1.0，Pyarrow 0.14.1 此代码适用于pyarrow引擎 import dask.dataframe as dd dd.read_parquet(directory, engine='pyarrow', filters=[((&

浏览 12提问于2019-08-28得票数 0

1回答

如何将ndarray/多维数组转换为拼图文件？

numpy、parquet、pyarrow

我有一个数组，我想把它保存到一个拼图文件中，以便传递给我正在构建的ML模型.我的数组有159573个数组，每个数组有1395个数组。以下是我的数据示例： [[0. 0. 0. ... 0.24093714 0.75547471 0.74532781] [0. 0. 0. ... 0.24093714 0.75547471 0.74532781] [0. 0. 0. ... 0.24093714 0.75547471 0.74532781] .

浏览 21提问于2021-08-12得票数 1

回答已采纳

1回答

dask读取拼图并指定模式

pandas、apache-spark、dask、parquet、pyarrow

在读入拼图文件时，有没有dask等同于spark指定模式的能力？可能使用传递给pyarrow的kwargs？我在存储桶中有一堆拼图文件，但其中一些字段的名称略有不一致。我可以创建一个自定义的延迟函数来在读取它们之后处理这些情况，但我希望在通过globing打开它们时可以指定模式。也许不是，正如我猜测的那样，then然后via globing将尝试连接它们。由于字段名称不一致，此操作当前失败。创建拼图文件： import dask.dataframe as dd df = dd.demo.make_timeseries( start="2000-01-01",

浏览 0提问于2021-04-01得票数 4

1回答

如何将列索引添加到Apache Beam Python SDK的拼图输出中？

python、apache-beam

我试着从GCS批量处理.avro文件，并将结果作为拼图文件写回GCS，数据是时间序列，元素是时间戳。如何从拼图输出中的timestamp列创建列索引？在Pandas/Dask中，它是一个简单的.set_index('timestamp')语句。 class AddTimestampDoFn(beam.DoFn): def process(self, element): yield beam.window.TimestampedValue(element, element['timestamp']) with beam.Pipelin

浏览 13提问于2021-08-10得票数 1

回答已采纳

1回答

pyarrow读取的数据多于请求的数据

python、hdfs、pyarrow

我使用的是pyarrow的HdfsFilesystem接口。当我对n字节调用read时，通过网络发送的数据通常会多出0%-300%。我的怀疑是pyarrow正在提前阅读。 pyarrow拼图阅读器没有这种行为，我正在寻找一种方法来关闭通用HDFS接口的预读。我在ubuntu 14.04上运行。此问题存在于pyarrow 0.10 - 0.13 (最新发布版本)中。我用的是python 2.7 我一直在使用wireshark来跟踪在网络上传递的数据包。我怀疑它是提前阅读的，因为第一次阅读的时间比第二次阅读的时间要长得多。常用的pyarrow阅读器 import pyarrow as pa

浏览 17提问于2019-05-17得票数 0

回答已采纳

1回答

读取Google云存储中的pandas拼图元数据

python、pandas、parquet

多亏了 answer (阅读第一个答案)，我才能读懂位于GCS上的拼图文件。我使用了pd.read_parquet函数，并使用了pyarrow引擎。我想现在访问拼图元数据，而无需将数据下载到dataframe中。有没有可能在熊猫身上做到这一点？

浏览 0提问于2019-12-02得票数 2

2回答

在分区中使用dask.dataframe.to_parquet()时会丢失索引信息

python、dask、partitioning、parquet

当我使用带有pyarrow 0.11.1的dask=1.2.2时，我没有观察到这个行为。在更新(dask=2.10.1和pyarrow=0.15.1)之后，当我使用带有给定的partition_on和write_index参数的to_parquet方法时，我无法保存索引。在这里，我创建了一个最小的例子来说明这个问题： from datetime import timedelta from pathlib import Path import dask.dataframe as dd import pandas as pd REPORT_DATE_TEST = pd.to_datetime(

浏览 9提问于2020-02-05得票数 2

2回答

pyarrow.ParquetDataset >分区列的模式

python、pandas、hive、parquet、pyarrow

我有一只熊猫DataFrame： import pandas as pd df = pd.DataFrame(data={"col1": [1, 2], "col2": [3.0, 4.0], "col3": ["foo", "bar"]}) 使用 from s3fs import S3FileSystem s3fs = S3FileSystem(**kwargs) 我可以把它写成一个拼花数据集 import pyarrow as pa import pyarrow.parq

浏览 7提问于2021-12-10得票数 3

回答已采纳

2回答

pyarrow/parquet错误地保存大的时间戳

python、snowflake-cloud-data-platform、parquet、pyarrow

我有一些时间戳在数据库中是9999-12-31的，并试图转换为拼花。不知何故，这些时间戳在拼图文件中都以1816-03-29 05:56:08.066的形式结束。以下是重现该问题的一些代码。 file_path = "tt.parquet" schema = pa.schema([pa.field("tt", pa.timestamp("ms"))]) table = pa.Table.from_arrays([pa.array([datetime(9999, 12, 31),], pa.timestamp('ms'))], [

浏览 67提问于2021-10-06得票数 1

1回答

如何使用dask dataframes中的pyarrow将自定义类序列化为结构？

python、parquet、dask、pyarrow

我有一个dask dataframe，它有一个ListMyClass类型的列。我想将这个数据帧保存到拼图文件中。Dask使用pyarrow作为后端，但它只支持原始类型。 import pandas as pd import dask.dataframe as dd class MyClass: def __init__(self, a): self.a = a def transform(v): return [MyClass(v)] a = [[1], [2], [3]] pdf = pd.DataFrame.from_dict(a) ddf

浏览 28提问于2019-01-11得票数 3

1回答

如何设置pyarrow表列的'category‘数据类型？

python、parquet、pyarrow

我知道使用to_parquet在拼图文件中编写pandas DataFrame时可以保留category类型。在开始的时候，在我的例子中，我已经有了一个pyarrow Table。我可以将其中一列设置为category类型吗？如果是，是如何实现的？(我在Google和pyarrow文档中找不到任何提示) 谢谢你的帮助！最好的

浏览 49提问于2020-09-10得票数 0

回答已采纳

2回答

如何使用python将熊猫数据帧数据存储到azure blob中？

python、pandas、azure、blob、parquet

我想以拼图文件格式将处理后的数据存储在pandas dataframe到azure blob中。但在上传到blobs之前，我必须将其作为parquet文件存储在本地磁盘中，然后再上传。我想把pyarrow.table写成pyarrow.parquet.NativeFile，然后直接上传。有没有人能帮我。下面的代码运行正常： import pyarrow as pa import pyarrow.parquet as pq battery_pq = pd.read_csv('test.csv') # SOme数据处理 battery_pq = pa.Table.from_pa

浏览 20提问于2019-02-13得票数 3

回答已采纳

1回答

在C++中读取箭头羽化文件

pandas、apache-arrow、feather

我已经搜索了Arrow文档，但是对于如何将通过pyarrow生成的羽毛文件读回到C++中并不是很清楚。 import pyarrow.feather as feather feather.write_feather(df, 'test_file.feather') 这不是推荐的流程吗？看起来羽毛正在走向弃用的道路，取而代之的是拼图……

浏览 3提问于2019-10-29得票数 0

3回答

如何为pyarrow.Table / Parquet列分配任意元数据

python、pandas、gis、parquet、pyarrow

用例我正在使用Apache文件作为一种快速IO格式，用于处理使用GeoPandas的Python中的大型ish空间数据。我将特征几何图形存储为WKB，并希望将坐标参考系统(CRS)记录为与WKB数据关联的元数据。码问题我试图将任意元数据分配给pyarrow.Field对象。我试过什么假设table是从df ( pandas.DataFrame )实例化的pyarrow.Table df = pd.DataFrame({ 'foo' : [1, 3, 2], 'bar' : [6, 4, 5] }) ta

浏览 0提问于2019-04-06得票数 7

回答已采纳

1回答

为什么分区的拼板文件占用更大的磁盘空间？

python、parquet、pyarrow

我正在学习使用python和py箭头的拼图文件。在压缩和最小化磁盘空间方面，拼花是很棒的。我的数据集是190 3MB的csv文件，当保存为snappy-compressed parquet文件时，该文件以单个3MB文件结束。但是，当我将数据集保存为分区文件时，它们的大小加起来要大得多(61 my )。下面是我试图保存的示例数据集： listing_id | date | gender | price ------------------------------------------- a | 2019-01-01 | M | 100

浏览 17提问于2019-10-13得票数 4

回答已采纳

2回答

如何读取/访问用Dask保存的自定义拼花元数据

python、dask、parquet、pyarrow

我目前正在使用dask来保存一个拼花文件，我想将有关该文件的一些附加信息存储在拼板文件元数据中(如在页脚元数据中，而不是在全局_metadata文件中)。 Dask有一个看起来很方便的"custom_metadata“参数，它需要一个字典，我认为它可以像这样使用： import dask.dataframe as dd import pandas as pd df = dd.from_pandas(pd.DataFrame({'a':[1, 2], 'b':[3, 4]}), npartitions=2) df.to_parquet('parq

浏览 2提问于2022-08-24得票数 0

回答已采纳

1回答

jupyter中的read_parquet抛出“无效的拼图文件.损坏的页脚”错误

python、jupyter、parquet

我在jupyter笔记本中加载了一个来自AWS S3的最新更新的拼图文件。每次更新拼图文件中的数据后，我都会得到一个“无效的拼图文件。损坏的页脚”。错误。每次更新拼图文件后，都会显示错误。 import pandas as pd bucket = 'xxx' path = 'xxx' filename = 'xxx.parquet' location = f"s3://{bucket}/{path}/{filename}" frame1 = pd.read_parquet(location, engine = 'py

浏览 53提问于2019-07-24得票数 0

1回答

如何处理pyarrow写表时的空字典

python-3.x、pandas、parquet、pyarrow

我正在用pandas和pyarrow从python字典列表中创建拼图文件。但获取空的nasted字典时出现以下错误。 Cannot write struct type 'subject' with no child field to Parquet. Consider adding a dummy child field 下面的代码。 import pandas as pd import pyarrow as pa import pyarrow.parquet as pq data =[ { "name":"david"

浏览 3提问于2021-09-02得票数 0

1回答

皮亚罗的拼花档案，还是只为熊猫？

pandas、parquet、pyarrow

我一直在测试Azure上的地板文件，而不是将数据加载到PostgreSQL表中，因为我对熊猫做了很多提取/转换步骤，并且可能很快就会发现火花。是否有任何利弊使用吡箭打开csv文件而不是pd.read_csv？我是否应该使用pyarrow来编写拼图文件而不是pd.to_parquet？最终，我将存储原始文件(csv、json和xlsx)。我用熊猫或pyarrow阅读了这些文件，添加了一些元数据列，然后保存了一个经过改进/转换的拼花文件(星火风味，快速压缩)。然后，我用pyarrow (可能最终是Spark )读取这些转换后的文件，并执行一些聚合或其他的可视化操作(我可能会将

浏览 1提问于2019-09-15得票数 3

1回答

为什么Dask看起来储存镶木地板效率不高

python、pandas、dask、parquet、pyarrow

当我使用Pandas和Dask将同一张表保存到拼图中时，Pandas创建了一个4k文件，其中Dask创建了一个39M文件。创建数据帧 import pandas as pd import pyarrow as pa import pyarrow.parquet as pq import dask.dataframe as dd n = int(1e7) df = pd.DataFrame({'col': ['a'*64]*n}) 用不同的方式保存它 # Pandas: 4k df.to_parquet('example-pandas.parquet

浏览 12提问于2021-08-06得票数 3

回答已采纳

1回答

使用spark sql创建配置单元表

apache-spark、hadoop、hive、pyspark

使用spark读取数据框后，我正在尝试创建拼图文件格式的配置单元表格- spark-sql .Table已在hive中以顺序文件格式创建，而不是拼图文件format.But在表格路径中，我可以看到拼图文件已创建。我无法从hive.This查询此文件是我使用的代码。 df.write.option("path","/user/hive/warehouse/test/normal").format("parquet").mode("Overwrite").saveAsTable("test.people") 我正在使

浏览 37提问于2019-08-29得票数 0

1回答

如何将s3文件夹中的所有拼图文件读取到pandas

python-3.x、pandas、parquet

如何使用Python3.x将文件夹(由Spark编写)中的所有拼图文件读取到pandas DataFrame中？优选地，由于版本冲突而没有pyarrow。文件夹包含带有pattern part-*.parquet和_SUCCESS文件的地块文件。

浏览 24提问于2021-02-01得票数 0

回答已采纳

1回答

是否可以将数组追加到现有的AwkwardArray文件中？

arrays、python-3.x、dataset、parquet、awkward-array

是否可以使用AwkwardArray (awkward0)附加到现有的拼图文件(由AwkwardArray编写)？普通笨拙的拼花地板存放下面的代码创建了一个内部有几个笨拙数组(例如音频数据)的拼图文件： import numpy as np import awkward as awk import pyarrow.parquet as pq # create Awkward Table from dict with numpy arrays awk_array = awk.fromiter([{"ch0": np.array([0, 1, 2]), "ch1&#

浏览 31提问于2019-12-05得票数 2

回答已采纳

1回答

镶嵌在拼图中的类型

parquet、pyarrow

是否支持documentation中提到的嵌入式类型，如JSON和BSON。我无法使用scala、pyarrow、hive生成镶嵌拼图的类型。

浏览 16提问于2019-01-31得票数 1

1回答

PyArrow不写羽毛或镶木地板

python、pyarrow、apache-arrow

因此，查看write_feather的文档，我应该能够编写一个箭头表，如下所示。 import pyarrow as pa import pyarrow.feather as fe fe.write_feather( pa.Table.from_arrays([ pa.array([1,2,3]) ], names=['value']), 'file.feather' ) 但是我得到了以下错误： File "pyarrow/feather.py", line 89, in write if not df.columns.is

浏览 13提问于2020-09-01得票数 0

3回答

如何将pyarrow镶木地板数据写入s3存储桶？

python、amazon-s3、boto3、pyarrow

我已经创建了一个数据帧，并使用pyarrow (也提到了)将该df转换为拼图文件： def convert_df_to_parquet(self,df): table = pa.Table.from_pandas(df) buf = pa.BufferOutputStream() pq.write_table(table, buf) return buf 现在我想保存上传到s3存储桶，并尝试upload_file()的不同输入参数，我尝试的一切都不起作用： s3_client.upload_file(parquet_file, bucket_name, dest

浏览 23提问于2019-11-12得票数 1

1回答

pyarrow数据集to_table按索引过滤

python、indexing、dataset、pyarrow

我有一个pyarrow数据集，我正在尝试按索引进行过滤。pyarrow文档提供了按列或“字段”进行筛选，但不清楚如何对索引筛选执行此操作。我通过打印dataset.to_table()的结果检查了我的表，发现索引列被标记为__index_level_0__: string。然后，我设法通过将该值用作我的字段来过滤索引，即：dataset.to_table(filter=ds.field("__index_level_0__") == 'index_to_search_for') 有没有更好的按索引过滤的方法？

浏览 0提问于2021-07-29得票数 1

1回答

将Parquet文件分区列存储在不同文件中

python、pandas、parquet、pyarrow、apache-arrow

我想以parquet格式存储一个表格数据集，对不同的列组使用不同的文件。可以按列对拼图文件进行分区吗？如果是这样的话，是否可以使用python (pyarrow)来实现呢？我有一个大型数据集，它收集了许多对象(行)的属性/特性(列)。行数约为100k-1M (行数将随着时间的推移而增长)。相反，这些列在逻辑上分成200组，每组有200-1000列。列的总数是固定的，但它们的数据是从col组1，col组2，...开始顺序获取的。然而，在接收第一批数据之前，事先不知道列名、类型和编号对列组进行排序。数据将随着时间的推移而收集。当数据到达时，我希望将这组不断增长的列存储在parquet中。最终，

浏览 47提问于2020-03-05得票数 3

1回答

我能过滤一张镶木镶嵌桌吗？

python、parquet

我刚刚开始看拼图文件，因为我的一些数据以这种格式可用。我以前并没有真正玩过它，所以这是我的问题。我像这样打开我的拼图文件： import pyarrow.parquet as pq table1 = pq.read_table('mydatafile.parquet') 该文件由10列组成。现在是否可以直接从这里过滤掉所有行，例如column3的值为1？我是说，我可以这样做： df = table1.to_pandas() df = df[df["column3"] != 1] 但是，这可以在本地完成，而不需要首先转换为Pandas数据帧吗？

浏览 3提问于2021-05-20得票数 1

回答已采纳

2回答

在`pyarrow`测试中使用内存中的文件系统

python、filesystems、parquet、pyarrow

我有一些编写代码的pyarrow拼图数据集。我想要有一个集成测试，以确保文件被正确写入。我想通过将一个小的示例数据块写入内存中的文件系统来做到这一点。但是，我正在努力寻找一种适用于pyarrow的-compatible内存文件系统接口。您将在下面找到一个包含filesystem变量的代码片段。我想用内存中的文件系统替换filesystem变量，稍后我可以在集成测试中以编程方式检查该文件系统。 import pyarrow.parquet as pq pq.write_to_dataset( score_table, root_path=AWS_ZEBRA_O

浏览 35提问于2019-05-29得票数 1

回答已采纳

1回答

如何读取拼花文件的特定页？使用python或java

python、java、parquet

现在，我知道如何读取一行组粒度中的拼图文件。例如： import pyarrow.parquet as pp _table = pp.ParquetFile(file) row_group_contents = _table.read_row_group(row_group_index, columns=[column]) 但我想读一读页面粒度。我怎么能这么做？

浏览 11提问于2022-05-31得票数 1