如何解决“太多打开的文件错误”时，使用pyarrow的箭头数据集？_使用命名管道时出现“打开的文件太多”错误_如何使用docker解决打开卷存储元数据数据库时的守护进程超时错误？ - 腾讯云开发者社区

pyarrow、ulimit

import pyarrow as pads = dataset.dataset(f, format='parquet', partitioningvirtual memory (kbytes, -v) unlimited file locks (-x) unlimited 你有什么办法解决这个问题吗我有一种感觉，我已经把我的ulimit设置得相当高了，但也许我可以调整一下。

浏览 25提问于2021-10-09得票数 0

回答已采纳

1回答

pyarrow保存python对象

python、python-3.x、serialization、pyarrow

我已经尝试了一段时间，阅读他们的文档，但我仍然觉得我不能完全掌握它。我看到了他们对任意python对象进行序列化的depcrecated方法，但由于它已被弃用，我想知道保存对象列表或任意python对象的正确方法是什么？什么时候你还想费心使用pyarrow呢？

浏览 0提问于2020-10-29得票数 2

1回答

如何纠正csv文件混合类型，如果使用吡箭头写入数据集的拼板？

python、file、types、format、pyarrow

我目前正在使用pyarrow将一堆.csv文件从目录中读取到数据集中，如下所示：ArrowInvalid: In CSV column #14: Row #111060: CSV conversion error to

浏览 11提问于2021-12-25得票数 1

回答已采纳

1回答

pyarrow.lib.ArrowInvalid:无效空值

python、apache-beam、pyarrow

我正在尝试使用apache beam管道，该管道最终保存了一个拼图文件，并使用py箭头和模式验证数据，我不知道为什么会收到这个错误： facebook_insights_performance_ads/Write/WriteImpl/WriteBundles‘：运行“写入最终数据集/写核心数据集pyarrow.lib.ArrowInvalid”时</e

浏览 8提问于2022-03-14得票数 1

1回答

使用pyarrow读取大型压缩json文件，类似于pandas阅读器功能。

pyarrow、apache-arrow

我有一个很大的压缩json文件，未压缩的单个文件大约有128GBs。使用.gz压缩时，文件大小约为21 is。我想利用pyarrow以块的形式读取文件，并将其转换为拼图数据集。我有以下代码，其中压缩的json文件通过pandas read_json读入块中，然后将这些块转换为apache箭头表，然后写出到parquet数

浏览 59提问于2020-11-06得票数 0

1回答

如何利用IO流生成PyArrow数据集？

pyarrow

我有一个python程序，它以文件的形式读取一个拼图文件，并试图用它来构造一个pyarrow数据集。我可以使用以下方法将文件编辑器读入比罗罗表中：但是，将文件读取程序直接传递给数据集初始化程序会导致错误这是有意义<em

浏览 8提问于2022-01-25得票数 0

1回答

在用pyarrow.parquet编写数据集时，是否可以重写文件名的uuid自动分配？

io、parquet、pyarrow

假设我有一只熊猫DataFrame df，我想将它作为数据集存储在磁盘上，使用吡箭头拼板，我会这样做：some_path__

浏览 0提问于2018-10-16得票数 3

1回答

皮亚罗的拼花档案，还是只为熊猫？

pandas、parquet、pyarrow

是否有任何利弊使用吡箭打开csv文件而不是pd.read_csv？我是否应该使用pyarrow来编写拼图文件而不是pd.to_parquet？最终，我将存储原始文件(csv、json和xlsx)。我用熊猫或pyarrow阅读了这些文件，添加了一些元数据列，然后保存了一个经过改进/转换的拼花文件(星火风味，快速压缩)。然后，我用pyarrow (可能

浏览 1提问于2019-09-15得票数 3

1回答

为什么分区的拼板文件占用更大的磁盘空间？

python、parquet、pyarrow

我正在学习使用python和py箭头的拼图文件。在压缩和最小化磁盘空间方面，拼花是很棒的。我的数据集是190 3MB的csv文件，当保存为snappy-compressed parquet文件时，该文件以单个3MB文件结束。但是，当我将数据集保存为分区文件时，它们的<

浏览 17提问于2019-10-13得票数 4

回答已采纳

1回答

pyarrow pq.ParquetFile和相关函数抛出OSError:无法反序列化节俭: TProtocolException:超出大小限制错误

metadata、parquet、python-3.8、pyarrow、apache-arrow

作为分析管道的一部分，我使用了大约60000个拼花文件，其中包含每一行必须连接的数据。每个文件都可以包含一组不同的列，在将它们与连接之前，我需要统一它们。当读取Pandas使用pyarrow创建的拼花文件时，我得到了错误OSError: Couldn't deserialize thrift: TProtocolException: Exceeded s

浏览 35提问于2022-10-29得票数 0

回答已采纳

3回答

在相同环境下使用CLI读取DataFrame与可执行文件时的不同行为

python、pandas、pyinstaller、parquet、pyarrow

请考虑以的形式执行以下程序import pyarrow print(pyarrow它读取columns=[]的全部数据D:\foo\env\lib\site-packages\pyarrow\__init__.py versionPyinstaller创建的可执行

浏览 4提问于2021-07-22得票数 10

回答已采纳

5回答

Python使用py箭头- ArrowNotImplementedError:对未构建的编解码器'snappy‘的支持

parquet、pyarrow、apache-arrow

使用Python、Parquet和Spark，并在升级到pyarrow=3.0.0后运行到pyarrow=3.0.0。没有此错误的前一个版本是pyarrow=0.17。错误不出现在pyarrow=1.0.1中，在pyarrow=2.0.0中显示。其想法是使用Snappy压缩将熊猫DataFrame编写为Parquet数据集(在Windows上)，然后使用Spark

浏览 3提问于2021-02-02得票数 15

回答已采纳

1回答

皮亚罗上带空列的拼花

python、pyarrow

我正在使用PostgreSQL读取pandas.read_sql上的表，然后将其转换为Pyarrow表，并将其保存在本地文件系统中。use_legacy_dataset = True# print(result)问题是，我的SELECT当我在本地文件系统中分区这个要写(write_to_dataset)的文件时，有几个文件只有以

浏览 8提问于2022-01-03得票数 1

回答已采纳

1回答

皮亚罗与熊猫的整合

pandas、pyarrow、apache-arrow

我计划：使用py箭头的数据(它是新的)。与熊猫相比，其想法是获得更好的性能和内存利用( apache箭头压缩)。似乎pyarrow不支持按键连接两个表/数据集，所以我不得不回过头来看熊猫。我不太明白比阿罗<->熊猫的整合是如何运作的。熊猫真的会使用apache箭头<

浏览 1提问于2021-01-01得票数 1

回答已采纳

1回答

如何从R连接到HDFS，并使用箭头读取/写入参数？

r、hadoop、hdfs、pyarrow、apache-arrow

我有几个HDFS中的拼花文件，我想把它们读入R中，还有一些R中的数据，我想把它们写进HDFS中，并以拼花文件的格式存储。我想使用箭头库，因为我相信它是R等价的pyarrow和pyarrow是很棒的。问题是，在R箭头文档中，我无法找到有关使用HDFS的信息，而且通常也没有多少关于如何正确使用库<

浏览 7提问于2022-05-16得票数 1

1回答

Pyarrow没有安装python3.7(anaconda5.3.0，windows x64版本)

python、pandas、anaconda、pyarrow

我通过安装anaconda5.3.0安装了python 3.7的64位windows版本。然后我试着安装pyarrow (“CondaInstallpy箭头”)。Anaconda最终将将 python的评级下调至3.6。之后事情就不太顺利了(奇怪的错误信息)。最后，我不得不卸载Anaconda并重新安装它(必须卸载，因为它不进行修复或重新安装，如果程序文件夹不是空的)。这就给我留下了3.7条python，但没有py箭头。还有另一个包

浏览 0提问于2018-10-11得票数 3

回答已采纳

2回答

Pyarrow.lib.Schema对pyarrow.parquet.Schema

python、pyspark、parquet、pyarrow

当我试图跨多个分区的parquet文件加载时，一些模式会被推断为无效，因为缺少了用空值填充模式的数据。我认为在pyarrow.parquet.ParquetDataset中指定模式会解决这个问题，但我不知道如何构造正确的pyarrow.parquet.Schema类型的模式。.parquet', 'test_root/partition2/file2.parq

浏览 0提问于2018-12-11得票数 3

回答已采纳

2回答

使用pyarrow.dataset读取存储为csv的分区数据集

csv、pyarrow、data-partitioning、apache-arrow

pyarrow中有没有办法读取由csv文件组成的分区数据集，这些文件的列名没有存储在第一行？我试图做的本质上是：from pyarrow import fs filesystem = fs.HadoopFileSystem(filesystem = filesystem, format = 'csv', partitioning

浏览 29提问于2021-03-11得票数 0

1回答

AWS层无法导入模块“Lambda _function”：没有名为“pyarrow.lib”的模块

python、amazon-web-services、aws-lambda、parquet、pyarrow

我按照以下步骤创建了一个用于AWS函数的层。安装pyarrow==5.0.0 -t python使用AWS上传了压缩文件，并成功地创建了一个图层。但是，当我试图导入py箭头时，我会得到以下<e

浏览 8提问于2022-02-17得票数 1

5回答

如何修复"ImportError: PyArrow* >= 0.8.0必须安装；但是，没有找到“？*

apache-spark、pyspark、pyspark-sql

我使用PySpark 2.4.0并在pyspark中执行以下代码Python 2.7.16 (default, Mar 25 2019, 15:07:04) File "/Users/x/spark/python/pyspark/sql/udf.py", line 47, in _create_udf Fi

浏览 6提问于2019-03-27得票数 4

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云