使用pyarrow重新划分pyarrow表的大小，并将其写入几个拼图文件？_Hive/Bigsql pandas浮点型转换为带空值的整数，并使用pyarrow将其转换为拼图文件 - 腾讯云开发者社区

python、pyarrow

我有很大的CSV文件，我最终想要转换成拼图。由于内存限制和处理空值(在我的数据中很常见)的困难，Pandas不会提供帮助。我检查了PyArrow文档，有读取拼图文件的工具，但我没有看到任何有关读取CSV的内容。我是不是错过了什么，或者这个特性是否与PyArrow不兼容？

浏览 2提问于2018-09-20得票数 4

1回答

无法读取拼图文件，出现Gzip代码失败错误

python-3.x、pyspark、parquet、pyarrow、fastparquet

我正在尝试转换拼花到csv文件与pyarrow。 df = pd.read_parquet('test.parquet') 上面的代码可以很好地处理从github下载的示例拼图文件。但是当我尝试处理实际的大拼图文件时，它给出了以下错误。 File "_parquet.pyx", line 734, in pyarrow._parquet.ParquetReader.read_all File "error.pxi", line 79, in pyarrow.lib.check_status pyarrow.lib.ArrowIOError:

浏览 17提问于2018-08-14得票数 0

1回答

使用Pyarrow压缩/合并拼图文件？

amazon-web-services、parquet、amazon-athena、pyarrow

我想合并成1或2个较大的文件小拼图文件。可以设置最大文件大小吗？我的目标是获得200MB-1 1GB的文件，以优化雅典娜请求。用Pyarrow可以做到这一点吗？

浏览 64提问于2021-01-08得票数 1

回答已采纳

1回答

使用Pyarrow读取分区的拼图文件会占用太多内存

pandas、hdfs、parquet、impala、pyarrow

我有一个由分区的拼图文件组成的大型Impala数据库。我直接使用HDFS将一个Parquet分区复制到本地磁盘。此分区总共有15 of，由许多文件组成，每个文件大小为10MB。我正在尝试使用Pandas与Pyarrow引擎或Pyarrow直接读取，但它在内存中的大小使用了超过60‘t的RAM，并且它在使用所有内存之前不会读取整个数据集。内存使用量如此之大的原因可能是什么？

浏览 32提问于2019-02-02得票数 1

1回答

使用pyarrow重新划分pyarrow表的大小，并将其写入几个拼图文件？

python、parquet、partition、pyarrow

正如标题所述，我想通过使用pyarrow并写入几个拼图文件来按大小(或行组大小)对pyarrow表进行重新分区。我已经查看了pyarrow文档，并确定了分区数据集章节，这似乎是一个方向。不幸的是，它表明可以按列内容进行分区，但不能按大小(或行组大小)进行分区。那么，从一个表开始，我如何控制写入步骤，以便以受控的大小x MB写入多个文件？(或行组大小) import pandas as pd import numpy as np import pyarrow as pa import pyarrow.parquet as pq file = 'example.parquet

浏览 36提问于2020-12-15得票数 1

回答已采纳

1回答

如何使用Pyarrow实现串流写入效果

parquet、pyarrow

我拥有的数据是一种流数据。我想把它们存储到一个单独的拼图文件中。但是Pyarrow每次都会覆盖拼图文件。那么我该怎么做呢？我试着不关闭写入器，但这似乎是不可能的，因为如果我不关闭它，那么我就无法读取这个文件。包是这样的： import pyarrow.parquet as pp import pyarrow as pa for name in ['LEE','LSY','asd','wer']: writer=pq.ParquetWriter('d:/test.parquet', table.sche

浏览 16提问于2019-06-25得票数 1

1回答

pyarrow作为lambda层

amazon-web-services、aws-lambda、aws-lambda-layers

我需要帮助才能让pyarrow作为lambda函数的lambda层。我正在尝试读/写拼图文件，我得到下面的错误，"errorMessage"：“找不到可用的引擎；尝试使用：'pyarrow'，‘for parquet’。\n拼图支持需要pyarrow或for parquet”。我尝试通过在我的系统中安装pyarrow来创建层，命令如下: pip3 install pandas pyarrow -t build/python/lib/python3.7/site-packages/ --system 但是zip文件是在大于300mb的情况下创建的，因此我不能让

浏览 9提问于2020-01-22得票数 2

1回答

使用pyarrow将字符串时间戳转换为日期时间

python、pyarrow

在写入拼图文件之前，有没有可能将pyarrow表中的字符串时间戳转换为日期时间格式？

浏览 0提问于2018-03-03得票数 1

1回答

将PySpark数据帧读取到包含VectorUDT列的Pandas中时出现问题

python、pandas、apache-spark、pyspark、parquet

我有一个PySpark表，其中的许多列都是VectorUDT类型的。这些列是使用PySpark中的OneHotEstimator函数创建的。我可以将这个表写到拼图文件中，但是当我尝试使用PyArrow将这个表读回到Pandas时，我得到了这个异常： ArrowNotImplementedError: Currently only nesting with Lists is supported. 有什么办法可以绕过这个问题吗？我不希望将每个VectorUDT列拆分成各自的列。

浏览 18提问于2019-06-10得票数 0

1回答

如何利用IO流生成PyArrow数据集？

pyarrow

我有一个python程序，它以文件的形式读取一个拼图文件，并试图用它来构造一个pyarrow数据集。我可以使用以下方法将文件编辑器读入比罗罗表中： import pyarrow.parquet as pq table = pq.read_table(file_reader) 但是，将文件读取程序直接传递给数据集初始化程序会导致错误。这是有意义的，因为pyarrow文档显示ds.dataset函数不接受filereader作为数据源： import pyarrow.dataset as ds dataset = ds.dataset(file_reader)

浏览 8提问于2022-01-25得票数 0

2回答

如何使用python将熊猫数据帧数据存储到azure blob中？

python、pandas、azure、blob、parquet

我想以拼图文件格式将处理后的数据存储在pandas dataframe到azure blob中。但在上传到blobs之前，我必须将其作为parquet文件存储在本地磁盘中，然后再上传。我想把pyarrow.table写成pyarrow.parquet.NativeFile，然后直接上传。有没有人能帮我。下面的代码运行正常： import pyarrow as pa import pyarrow.parquet as pq battery_pq = pd.read_csv('test.csv') # SOme数据处理 battery_pq = pa.Table.from_pa

浏览 20提问于2019-02-13得票数 3

回答已采纳

2回答

在S3中用pyarrow覆盖拼图文件

python、amazon-s3、pyarrow、python-s3fs

我正在尝试用S3中的pyarrow覆盖我的拼图文件。我看过纪录片，但什么也没找到。下面是我的代码： from s3fs.core import S3FileSystem import pyarrow as pa import pyarrow.parquet as pq s3 = S3FileSystem(anon=False) output_dir = "s3://mybucket/output/my_table" my_csv = pd.read_csv(file.csv) my_table = pa.Table.from_pandas(my_csv , preserv

浏览 5提问于2018-08-30得票数 18

1回答

如何使用pyarrow存储自定义拼图数据集元数据？

python、parquet、pyarrow

如何使用pyarrow将自定义元数据存储到ParquetDataset？例如，如果我使用Dask创建了一个地块数据集 import dask dask.datasets.timeseries().to_parquet('temp.parq') 然后我可以使用pyarrow来读取它。 import pyarrow.parquet as pq dataset = pq.ParquetDataset('temp.parq') 但是，我用来为单个拼图文件(在How to write Parquet metadata with pyarrow?中概述)写入元数据的相同

浏览 48提问于2021-09-10得票数 7

1回答

PyArrow不写羽毛或镶木地板

python、pyarrow、apache-arrow

因此，查看write_feather的文档，我应该能够编写一个箭头表，如下所示。 import pyarrow as pa import pyarrow.feather as fe fe.write_feather( pa.Table.from_arrays([ pa.array([1,2,3]) ], names=['value']), 'file.feather' ) 但是我得到了以下错误： File "pyarrow/feather.py", line 89, in write if not df.columns.is

浏览 13提问于2020-09-01得票数 0

1回答

十进制类型的译码最小/最大统计量

python、parquet、pyarrow

我使用pyarrow创建了一个十进制列类型pa.decimal128(12, 4)的拼图文件。读取该文件并访问其元数据后，将得到以下输出： <pyarrow._parquet.ColumnChunkMetaData object at 0x7f4752644310> file_offset: 26077 file_path: physical_type: FIXED_LEN_BYTE_ARRAY num_values: 3061 path_in_schema: Price is_stats_set: True statistics: <p

浏览 2提问于2021-03-22得票数 1

1回答

pyarrow read_table没有“拼图版本”参数

python、pandas、parquet、pyarrow

使用pyarrow，我可以编写2.0版的拼花文件。 pyarrow.parquet.write_table方法具有参数'version‘。但是pyarrow.parquet.read_table方法没有参数'version‘。似乎它只能读取1.0版的拼花文件。如何用pyarrow读取2.0版本的拼图文件？

浏览 0提问于2019-07-26得票数 0

1回答

如何将ndarray/多维数组转换为拼图文件？

numpy、parquet、pyarrow

我有一个数组，我想把它保存到一个拼图文件中，以便传递给我正在构建的ML模型.我的数组有159573个数组，每个数组有1395个数组。以下是我的数据示例： [[0. 0. 0. ... 0.24093714 0.75547471 0.74532781] [0. 0. 0. ... 0.24093714 0.75547471 0.74532781] [0. 0. 0. ... 0.24093714 0.75547471 0.74532781] .

浏览 21提问于2021-08-12得票数 1

回答已采纳

1回答

皮亚罗的拼花档案，还是只为熊猫？

pandas、parquet、pyarrow

我一直在测试Azure上的地板文件，而不是将数据加载到PostgreSQL表中，因为我对熊猫做了很多提取/转换步骤，并且可能很快就会发现火花。是否有任何利弊使用吡箭打开csv文件而不是pd.read_csv？我是否应该使用pyarrow来编写拼图文件而不是pd.to_parquet？最终，我将存储原始文件(csv、json和xlsx)。我用熊猫或pyarrow阅读了这些文件，添加了一些元数据列，然后保存了一个经过改进/转换的拼花文件(星火风味，快速压缩)。然后，我用pyarrow (可能最终是Spark )读取这些转换后的文件，并执行一些聚合或其他的可视化操作(我可能会将

浏览 1提问于2019-09-15得票数 3

2回答

如何在Python中使用pyarrow读取带条件的拼图文件

python、filter、conditional-statements、parquet、pyarrow

我从数据库中创建了一个包含三列(id、author、title)的拼图文件，并想要在有条件(title='Learn Python')的情况下读取该拼图文件。下面提到的是我在这个POC中使用的python代码。 import pyarrow as pa import pyarrow.parquet as pq import pandas as pd import pyodbc def write_to_parquet(df, out_path, compression='SNAPPY'): arrow_table = pa.Table.from_pandas(

浏览 0提问于2018-02-10得票数 9

1回答

Dask DataFrame将不美观的拼图文件索引从datetime64转换为object，为什么？

python-3.x、dask、parquet、pyarrow

我很努力地使用datetime64'ns‘dtype将我的拼图文件与索引一起保存。但是，当我读取Dask Dataframe中的多个拼图文件时，它会将索引转换为dtype对象(str)。为什么？我不能在read_parquet调用中使用parse_dates参数，因为它只对列起作用。我用pandas读取了每个单独的底层拼图文件，并检查了索引的数据类型，它们是一致的。我的代码很简单 try: df = dd.read_parquet(data_filenames, columns=list(cols_to_retrieve),

浏览 2提问于2020-01-15得票数 0

2回答

如何为tensorflow/pytorch加载大型多文件拼图文件

python-3.x、tensorflow、machine-learning、pytorch、parquet

我正在尝试从一个目录中为tensorflow/pytorch将几个拼图文件加载到Python中。文件太大，无法通过pyarrow.parquet函数加载 <code>A0</code> 这就给了<code>D1</code>。我也尝试过使用<code>D2</code>，但它不适用于<code>D3</code>，因为它不是<code>D4</code>类型。 <code>A5</code> 当我使用<code>D6</code&

浏览 12提问于2020-03-15得票数 1

1回答

如何将列索引添加到Apache Beam Python SDK的拼图输出中？

python、apache-beam

我试着从GCS批量处理.avro文件，并将结果作为拼图文件写回GCS，数据是时间序列，元素是时间戳。如何从拼图输出中的timestamp列创建列索引？在Pandas/Dask中，它是一个简单的.set_index('timestamp')语句。 class AddTimestampDoFn(beam.DoFn): def process(self, element): yield beam.window.TimestampedValue(element, element['timestamp']) with beam.Pipelin

浏览 13提问于2021-08-10得票数 1

回答已采纳

1回答

parquet:具有不同列的数据集文件

parquet、pyarrow、apache-arrow

使用pyarrow。我有一个由多个拼图文件组成的拼图数据集。如果文件之间的列不同，那么我会得到一个"ValueError: Schema in was different“。有没有办法避免这种情况？这意味着我想要一个由文件组成的数据集，每个文件包含不同的列。如果数据集的特定组件文件中没有列，我猜可以通过pyarrow将缺少的列的值填充为na来完成此操作。谢谢

浏览 0提问于2019-07-22得票数 0

1回答

拼图创建从pandas dataframe到pyarrow表的转换不适用于对象数据类型

pandas、hive、parquet

我想从csv文件创建一个拼图文件。出于测试目的，我有下面的一段代码，它读取一个文件，并首先将其转换为pandas dataframe，然后再转换为pyarrow表。然后将该表存储在亚马逊网络服务S3上，并希望在该表上运行配置单元查询。输入文件内容： YEAR|WORD 2017|Word 1 2018|Word 2 代码： dataFrame=pd.read_csv(inputFile, sep='|') print(dataFrame) print(dataFrame.dtypes) print(dataFrame.columns) dataFrame['C1

浏览 2提问于2017-04-07得票数 0

1回答

是否可以将数组追加到现有的AwkwardArray文件中？

arrays、python-3.x、dataset、parquet、awkward-array

是否可以使用AwkwardArray (awkward0)附加到现有的拼图文件(由AwkwardArray编写)？普通笨拙的拼花地板存放下面的代码创建了一个内部有几个笨拙数组(例如音频数据)的拼图文件： import numpy as np import awkward as awk import pyarrow.parquet as pq # create Awkward Table from dict with numpy arrays awk_array = awk.fromiter([{"ch0": np.array([0, 1, 2]), "ch1&#

浏览 31提问于2019-12-05得票数 2

回答已采纳

1回答

直到dask 2.2.0 read_parquet过滤器参数似乎不再与pyarrow引擎一起工作

dask、parquet、pyarrow

当我将dask从2.1.0升级到2.2.0 (或2.3.0)时，下面的代码改变了它的行为，并像以前一样停止过滤拼图文件。这只是一个附加的pyarrow引擎(快速拼接引擎仍然可以正常过滤)。我在Dask 2.2.0和2.3.0上尝试了pyarrow 0.13.1，0.14.0和0.14.1，但没有成功。我之前的工作设置是: Dask 2.1.0，Pyarrow 0.14.1 此代码适用于pyarrow引擎 import dask.dataframe as dd dd.read_parquet(directory, engine='pyarrow', filters=[((&

浏览 12提问于2019-08-28得票数 0

2回答

pyarrow/parquet错误地保存大的时间戳

python、snowflake-cloud-data-platform、parquet、pyarrow

我有一些时间戳在数据库中是9999-12-31的，并试图转换为拼花。不知何故，这些时间戳在拼图文件中都以1816-03-29 05:56:08.066的形式结束。以下是重现该问题的一些代码。 file_path = "tt.parquet" schema = pa.schema([pa.field("tt", pa.timestamp("ms"))]) table = pa.Table.from_arrays([pa.array([datetime(9999, 12, 31),], pa.timestamp('ms'))], [

浏览 67提问于2021-10-06得票数 1

2回答

将拼图输出文件以固定大小保存在spark中

apache-spark、apache-spark-sql

我有160 in的数据，分区在DATE列上，并以拼图文件格式存储在spark 1.6.0上。我需要在每个固定大小的分区中存储相同大小的输出拼图文件，例如每个分区大小为100MB。我尝试使用以下代码： val blockSize= 1024*1024*100 sc.hadoopConfiguration.setInt("dfs.blocksize", blockSize) sc.hadoopConfiguration.setInt("parquet.block.size",blockSize) df1.write.partitionBy("DATE&#

浏览 4提问于2018-04-14得票数 5

1回答

在python中使用parquete时，chunk_size的替代方案是什么？

python、pandas、machine-learning、bioinformatics、parquet

嗨，以前我用.csv文件来处理我的数据，但是由于一些问题，我选择了处理拼图文件，我得到了"read_table()得到了一个意想不到的关键字参数‘块’“错误。我使用以下代码-： reader = pd.read_parquet("Org_Proteins_Diseases.parquet", engine='pyarrow', chunk=1000) #chunksize depends with you colsize

浏览 10提问于2022-03-16得票数 0

1回答

Python:获取ParquetDataset的行数？

python、parquet

如何获取以包含多个拼图文件的文件夹形式构建的ParquetDataset的行数。我试过了 from pyarrow.parquet import ParquetDataset a = ParquetDataset(path) a.metadata a.schema a.commmon_metadata 我希望在不读取数据集的情况下计算出总的行数，因为它可能非常大。那么最好的方法是什么呢？

浏览 32提问于2020-04-01得票数 1

回答已采纳

2回答

如何在一台计算机上使用Python组合小拼图文件？

python、pandas、dask、parquet、amazon-athena

我有一个24 to的CSV文件(~26个cols)，我想把它转换成Parquet格式。从在线研究中，我了解到，为了获得最佳性能，在使用Amazon Athena查询时，建议的拼图文件大小在128MB到1 1GB之间。下面的代码高效地将CSV并行转换为数百个6-13MB的拼图文件： import dask.dataframe as dd dd.read_csv('input_24GB.csv', dtype=object).to_parquet('output_folder') 为了控制输出大小，我在dd.read_csv()中使用了blocksize参数 d

浏览 1提问于2020-02-07得票数 1

2回答

无法使用pyarrow从目录中读取拼图文件

python-3.x、pyarrow

我使用pyarrow(0.12.1)从s3读取拼图对象下面是我使用的代码： s3 = s3fs.S3FileSystem() base_pya_dataset = ParquetDataset('s3://bucket1/source/schema/table_name/2019_10_31_19_59_16', filesystem=s3) 尝试创建ParquetDataset时出现以下错误： "errorMessage": "Corrupted file, smaller than file footer", "errorTyp

浏览 22提问于2019-11-09得票数 1

1回答

Spark Streaming创建了许多小文件

apache-spark、hadoop、pyspark

我已经实现了一个火花流作业，它流的事件接收到HDFS在过去的6个月。它在HDFS中创建了许多小文件，我希望它们每个文件的大小都是HDFS的128MB(块大小)。如果我使用append模式，那么所有的数据都会被写到一个拼图文件中。如何配置Spark为每128 MB数据创建一个新的HDFS拼图文件？

浏览 2提问于2018-08-04得票数 2

回答已采纳

3回答

写入输出文件时，Parquet `write_table`会将数据类型的键引入数据

google-bigquery、parquet、pyarrow

我在将数据写入拼图文件时遇到问题。我尝试了不同的pyarrow版本( 2.0和3.0)，但结果看起来是一样的。我的数据外观的示例： test_data = { 'dogs': [ {'dog': 'frankie'}, {'dog': 'ricky'} ] } other_test_data = { 'dogs': [ {'dog': 'rory'}, {'dog

浏览 5提问于2021-03-22得票数 0

1回答

如何处理pyarrow写表时的空字典

python-3.x、pandas、parquet、pyarrow

我正在用pandas和pyarrow从python字典列表中创建拼图文件。但获取空的nasted字典时出现以下错误。 Cannot write struct type 'subject' with no child field to Parquet. Consider adding a dummy child field 下面的代码。 import pandas as pd import pyarrow as pa import pyarrow.parquet as pq data =[ { "name":"david"

浏览 3提问于2021-09-02得票数 0

1回答

在PyArrow中，如何将表中的行追加到内存映射文件中？

python、memory-mapped-files、pyarrow、memory-mapping、apache-arrow

正如您在下面的代码中所看到的，我在向保存在内存映射文件中的表添加新行时遇到了问题。我只想用新的行重写一次文件。 import pyarrow as pa source = pa.memory_map(path, 'r') table = pa.ipc.RecordBatchFileReader(source).read_all() schema = pa.ipc.RecordBatchFileReader(source).schema new_table = create_arrow_table(schema.names) #new table from pydict wit

浏览 83提问于2021-03-12得票数 0

回答已采纳

1回答

自动控制镶木地板文件大小

scala、apache-spark、apache-spark-sql、parquet

我有一个(scala/spark) DataFrame df，我想将它保存到拼图上，每个拼图文件大约128MB。根据该模式，我粗略地估计了一行的大小。我的策略是使用生成“超大”分区的值对数据帧进行重新分区。然后，我利用选项maxRecordsPerFile来获得我想要的拼图文件大小： val countLines = df.count val estimatedSize = countLines * 250 / (1024 * 1024) // one line is around 250 Bytes val repartitionEstimate = (esti

浏览 0提问于2020-11-17得票数 0

1回答

Dask Data Lake :这是正确的方法吗？

dask、dask-dataframe

因此，我使用Dask来存储大量数据。我们每天获得大约5000万行新数据。列宽不是很大。我目前用ddf.to_parquet(long_term_storage_directory)存储数据。当我获得新数据时，我将其附加到long_term_storage_directory目录中。一切正常，但速度很慢。正在使用的索引是time，我希望当我添加数据时，它会简单地添加到long_term_storage_directory中的拼图文件的长列表中。(long_term_storage_directory也是同一时间域的索引)我担心我采取的方法在某种程度上是有缺陷的。也许我需要使用spark或其他工

浏览 0提问于2020-06-18得票数 0

1回答

dask.dataframe.read_parquet耗时太长

python-3.x、dask

我试着这样读s3上的拼图： import dask.dataframe as dd s3_path = "s3://my_bucket/my_table" times = dd.read_parquet( s3_path, storage_options={ "client_kwargs": { "endpoint_url": bucket_endpoint_url,

浏览 2提问于2019-05-14得票数 3

1回答

如何在写入Parquet文件时指定分区的数量？

parquet、pyarrow

Parquet_writer.write_table(表) 这一行只写一个文件。文档中说:这将创建一个单独的拼图文件。在实践中，一个拼图数据集可能由许多目录中的许多文件组成。我们可以用read_table读回一个文件： PyArrow有没有办法以目录的形式创建包含多个零件文件的拼图文件，例如： ls -lrt permit-inspections-recent.parquet ... 14:53 part-00001-bd5d902d-fac9-4e03-b63e-6a8dfc4060b6.snappy.parquet ... 14:53 part-00000-bd5d902d-f

浏览 1提问于2020-07-10得票数 0

2回答

如何在关闭ParquetWriter对象并将其写入磁盘之前获取该对象的内存大小？

java、hadoop、avro、parquet

我正在从一个流中读取Avro消息，并使用parquet.hadoop.ParquetWriter将它们写出到Parquet文件中。我正在尝试使输出文件的大小超过阈值限制。问题是，ParquetWriter将所有内容都保存在内存中，只有在writer关闭时才会将其写出到磁盘。根据Parquet文档，数据以最终格式写入内存对象，这意味着内存中对象的大小与磁盘上的最终大小相同。我的问题是，如何获得内存中写入数据的大小，以便决定关闭写入器？我尝试使用写入ParquetWriter的avro消息的字节大小作为拼图写入器文件大小的估计值，但这与拼图写入器的大小有很大不同，因为拼图存储数据的方式不同(列格

浏览 1提问于2015-03-06得票数 3

1回答

Pandas to parquet不是放入文件系统，而是在变量中获取结果文件的内容

python、pandas、parquet、pyarrow

有几种方法可以实现从熊猫到拼花地板的转换。例如pyarrow.Table.from_pandas或dataframe.to_parquet。它们的共同点是，它们都以参数的形式获取应该存储df.parquet的filePath。我需要将编写的拼图文件的内容放到一个变量中，但我还没有看到这一点。我主要想要和pandas.to_csv一样的行为，如果没有提供路径，它会以字符串的形式返回结果。当然，我可以通过标准的文件读取操作将文件从python写入字符串。由于我正在写入大量数据，这将在文件系统上产生大量负载……

浏览 65提问于2019-02-13得票数 3

回答已采纳

1回答

读取Google云存储中的pandas拼图元数据

python、pandas、parquet

多亏了 answer (阅读第一个答案)，我才能读懂位于GCS上的拼图文件。我使用了pd.read_parquet函数，并使用了pyarrow引擎。我想现在访问拼图元数据，而无需将数据下载到dataframe中。有没有可能在熊猫身上做到这一点？

浏览 0提问于2019-12-02得票数 2

1回答

如何设置pyarrow表列的'category‘数据类型？

python、parquet、pyarrow

我知道使用to_parquet在拼图文件中编写pandas DataFrame时可以保留category类型。在开始的时候，在我的例子中，我已经有了一个pyarrow Table。我可以将其中一列设置为category类型吗？如果是，是如何实现的？(我在Google和pyarrow文档中找不到任何提示) 谢谢你的帮助！最好的

浏览 49提问于2020-09-10得票数 0

回答已采纳

1回答

有效地折叠拼图中的行组

python、memory、compression、parquet

我有一个包含许多小行组的大型拼图文件。我想生成一个带有单个(更大)行组的新的Parquet文件，并且我正在使用Python进行操作。我可以这样做： import pyarrow.parquet as pq table = pq.read_table('many_tiny_row_groups.parquet') pq.write_table(table, 'one_big_row_group.parquet') # Lots of row groups... print (pq.ParquetFile('many_tiny_row_groups.par

浏览 0提问于2019-05-18得票数 3

1回答

如何将拼图文件读入python字典数组中？

python-3.x、parquet

是否有一种方法将拼图文件转换为键为列的python字典数组？ import pyarrow.parquet as pq 该库本机支持该功能吗？

浏览 7提问于2022-02-11得票数 0

1回答

在C++中读取箭头羽化文件

pandas、apache-arrow、feather

我已经搜索了Arrow文档，但是对于如何将通过pyarrow生成的羽毛文件读回到C++中并不是很清楚。 import pyarrow.feather as feather feather.write_feather(df, 'test_file.feather') 这不是推荐的流程吗？看起来羽毛正在走向弃用的道路，取而代之的是拼图……

浏览 3提问于2019-10-29得票数 0

1回答

如何将s3文件夹中的所有拼图文件读取到pandas

python-3.x、pandas、parquet

如何使用Python3.x将文件夹(由Spark编写)中的所有拼图文件读取到pandas DataFrame中？优选地，由于版本冲突而没有pyarrow。文件夹包含带有pattern part-*.parquet和_SUCCESS文件的地块文件。

浏览 24提问于2021-02-01得票数 0

回答已采纳

2回答

如何在没有足够内存的情况下使用Pandas打开巨大的拼图文件

python、pandas、parquet、pyarrow、fastparquet

我正在尝试使用Pandas read_parquet函数将一个相当大的拼图文件(大约2 GB，大约3000万行)读取到我的Jupyter Notebook (Python3)中。我还安装了pyarrow和fastparquet库，read_parquet函数将它们用作拼图文件的引擎。不幸的是，在阅读的过程中，我的电脑似乎死机了，最终我收到一个错误，说内存不足(我不想重复运行代码，因为这会导致另一次死机--我不知道具体的错误消息)。有没有一种好的方法可以在不发生这种情况的情况下将拼图文件的某些部分写入内存？我知道拼图文件是柱状的，可能不可能只将部分记录存储到内存中，但如果有解决办法，我可能会将

浏览 15提问于2020-02-11得票数 7

1回答

如何使用与hadoop spark拼花相同的头保存带有pandas的镶木？

pandas、apache-spark、pyspark、hive、pyarrow

我有几个文件(csv，..)我使用pandas和pyarrow.table (0.17)在磁盘上将其保存为拼图(拼图版本1.4) colums id : string val : string table = pa.Table.from_pandas(df) pq.write_table(table, "df.parquet", version='1.0', flavor='spark', write_statistics=True, ) 但是，Hive和Spark无法识别镶木地板版本： org.apache.parquet.V

浏览 30提问于2021-10-21得票数 1