在`pyarrow`测试中使用内存中的文件系统

文章/答案/技术大牛

发布

2回答

、、、

我有一些编写代码的pyarrow拼图数据集。我想要有一个集成测试，以确保文件被正确写入。我想通过将一个小的示例数据块写入内存中的文件系统来做到这一点。但是，我正在努力寻找一种适用于pyarrow的-compatible内存文件系统接口。您将在下面找到一个包含filesystem变量的代码片段。我想用内存中的<

浏览 35提问于2019-05-29得票数 1

回答已采纳

1回答

将Pandas DataFrame序列化为内存中的缓冲区表示

、、、

将DataFrame序列化为内存中表示的最快方法是什么？根据一些研究，似乎人们普遍认为格式是大多数度量标准中最快的可用格式。我的目标是获得DataFrame的序列化字节-- Feather唯一的问题是我想避免写入磁盘和从磁盘加载的开销，而Feather API似乎只允许file I/O。对于这一点，我应该寻找不同的格式吗，或者在Python中是否有一种方法可以“伪造”一个文件，迫使Feather改为写入<e

浏览 19提问于2020-05-27得票数 1

回答已采纳

1回答

Pyarrow 0.15.1上传空文件到HDFS

、、

您好，我正在尝试使用pyarrow文件系统接口中的upload方法将csv文件上载到我的HDFS群集： pa.hdfs.HadoopFileSystem.upload(fs, '/data/test.csv', f) 由于某种原因，这总是将带有0B的空文件

浏览 14提问于2019-11-22得票数 2

回答已采纳

1回答

从Parquet数据中对DF分组的Dask内存错误

、、、、

我创建了一个拼花数据集，方法是将数据读入熊猫df中，对数据使用get_dummies()，并将其写入一个拼花文件：encoded = pd.get_dummies(df, columns=['account'])大熊猫的df为270万列，4000列。接下来，我将拼花数据读取到一个dask df中，并尝试在其上执行groupby： c = Cl

浏览 1提问于2018-04-27得票数 0

回答已采纳

1回答

Apache Arrow在Python中从Java获取向量

、、

我在java (arrow-vector，arrow-memory-unsafe)和python (pyarrow) 中使用Apache库在不同的进程()中。我试图在内存中实现零拷贝DataFrame，但是在java库中找不到从python获得箭头向量的内存地址的API。我在pyarrow库中发现了该API，但在java库<em

浏览 8提问于2020-12-30得票数 0

1回答

如何使用fs.HadoopFileSystem对HDFS文件执行常见操作？

、、

我需要使用python3对HDFS目录做一些普通操作。例如，如果存在dir，则为mkdir，chmod，chown，test。有人能回答我提到的如何使用新的API进行操作吗？

浏览 10提问于2021-12-06得票数 0

回答已采纳

1回答

怎样才能有效地将pyarrow表插入到MongoDB中？

、、

相关库pymongoarrow支持以pyarrow.Table格式检索mongo查询结果，但是没有类似的方法(批量)在mongo中插入pyarrow.Tables。一种方法是插入将pyarrow.Table转换为使用to_pylist()方法的字典列表，但是这样它将无法加载比内存更多的数据(在数据巨大的情况下)。

浏览 5提问于2022-09-27得票数 0

2回答

Pyarrow s3fs按时间戳分区

、

在将pyarrow文件写入s3fs时，是否可以使用parquet表中的时间戳字段按"YYYY/MM/DD/HH“对s3文件系统进行分区

浏览 13提问于2018-03-03得票数 7

回答已采纳

1回答

皮亚罗的拼花档案，还是只为熊猫？

、、

我一直在测试Azure上的地板文件，而不是将数据加载到PostgreSQL表中，因为我对熊猫做了很多提取/转换步骤，并且可能很快就会发现火花。是否有任何利弊使用吡箭打开csv文件而不是pd.read_csv？我是否应该使用pyarrow来编写拼图文件而不是pd.to_parquet？我用熊猫或pyarrow阅读了这些文件，添加了一些元数据列，然后保存了一个经过改进/转换的拼花文件(星火风味，快速压缩)。然后，

浏览 1提问于2019-09-15得票数 3

1回答

是否可以强迫PyFilesystem使文件系统成为单例？

、

我正在测试的代码使用open_fs(file_url)创建默认文件系统。当我测试这段代码时，我现在可以传入mem://filepath/filename来使用内存文件系统来运行测试。但是，为了进行测试，我需要用测试文件填充内存文件系统。有什么办法让我在文件系统上强制使用全局sing

浏览 2提问于2019-03-09得票数 1

回答已采纳

2回答

读取拼花文件时出现python应用程序函数错误

、、

我正在开发一个python脚本，它将作为一个蔚蓝的应用程序功能运行。它应该从我们的gen1数据集中读取一个拼花文件，并对其进行一些处理。当在VS代码中以调试模式运行时，它工作得很好，但是当我将脚本部署到app函数时，它会以一条不太重要的消息检索一个错误。我尝试使用pyarrow和pandas.read_parquet函数，但两者都给出了相同的错误。我试图在代码的这个特定点周围放置一个try/execept，但是会检索到任何多

浏览 11提问于2022-11-21得票数 0

1回答

pyarrow pq.ParquetFile和相关函数抛出OSError:无法反序列化节俭: TProtocolException:超出大小限制错误

、、、、

作为分析管道的一部分，我使用了大约60000个拼花文件，其中包含每一行必须连接的数据。每个文件都可以包含一组不同的列，在将它们与连接之前，我需要统一它们。当读取Pandas使用pyarrow创建的拼花文件时，我得到了错误OSError: Couldn't deserialize thrift: TProtocolException: Exceeded size为此，我确定了导致错误的一个文件。这个文件在我<

浏览 35提问于2022-10-29得票数 0

回答已采纳

1回答

使用Pyarrow读取分区的拼图文件会占用太多内存

、、、、

我有一个由分区的拼图文件组成的大型Impala数据库。我直接使用HDFS将一个Parquet分区复制到本地磁盘。此分区总共有15 of，由许多文件组成，每个文件大小为10MB。我正在尝试使用Pandas与Pyarrow引擎或Pyarrow直接读取，但它在内存中的大小使用了超过60‘t的RAM，并且它在使用所有内存之前不会读取整个数据集。内存<em

浏览 32提问于2019-02-02得票数 1

3回答

带有pyarrow内存的dask read_parquet发生故障

、、

我正在使用dask来写和读拼花。我使用快速拼接引擎进行写作，使用pyarrow引擎进行阅读。我的worker有1 gb的内存。对于fastparquet，内存使用率很好，但当我切换到pyarrow时，它就会崩溃，并导致worker重新启动。我有一个可重现的例子，在一个1 1gb内存限制的worker上，pyarrow失败了。实际

浏览 0提问于2018-06-15得票数 3

1回答

使用Apache箭头读取拼图文件

、、、、

我有一些使用PyArrow (Apache Arrow)用Python语言编写的Parquet文件：table = pyarrow.parquet.read_table("example.par

浏览 4提问于2020-05-27得票数 7

2回答

如何仅使用PyArrow.Table结构(最好保持连续内存排序)在Python中转换PyArrow对象？

、、、、

现在，我正在使用类似于以下示例的东西，我认为这个示例不太有效(我省略了简洁的模式)：import pyarrow as pa Original: [3 0 1 3] [[3 3 2] [0 1 3]在我目前正在开发的程序中，我正在使用P

浏览 2提问于2021-06-22得票数 1

回答已采纳

3回答

是否有可能从cython中的极性访问底层数据？

、、

对于polars，是否存在访问cython/c++中的底层结构的问题？我有许多获取np.ndarrays和迭代的脚本。极地有类似的东西吗？

浏览 16提问于2022-07-24得票数 2

1回答

如何使用FileSystem和pyarrow.csv.read_csv读取文件？

、、

我想在谷歌桶中读取一个CSV文件。我该怎么做？import pyarrow.csv as csv csv.read_csv("bucket/fo

浏览 16提问于2022-03-18得票数 0

3回答

如何损坏文件系统

、、、、

我将在一些大型文件系统(大约50 TB )上测试'xfs_repair‘，因为过去内存使用率很高。虽然我只能在正确的文件系统上测试这个程序，但是最好在一个损坏的系统上测试它们。那么什么才是破坏文件系统的最佳方法呢？额外的学分，如果方法每次重复给同样的腐败..。让人们明白我在2006年的意思 “要在多To文件系统

浏览 0提问于2009-07-14得票数 9

回答已采纳

2回答

如何使用python将熊猫数据帧数据存储到azure blob中？

、、、、

我想以拼图文件格式将处理后的数据存储在pandas dataframe到azure blob中。但在上传到blobs之前，我必须将其作为parquet文件存储在本地磁盘中，然后再上传。我想把pyarrow.table写成pyarrow.parquet.NativeFile，然后直接上传。有没有人能帮我。下面的代码运行正常： import pyarrow as pa batte

浏览 20提问于2019-02-13得票数 3

回答已采纳

点击加载更多