python中的PyArrow与C++中的Arrow进行接口时如何将Arrow表转换为Arrow表

python、c++、pybind11、pyarrow、apache-arrow

我有一个针对Apache Arrow C++库构建的python库，它使用Pybind绑定到python。我希望能够用C++编写一个函数来获取用PyArrow构造的表，例如： void test(arrow::Table test); 传入PyArrow表，如下所示： tab = pa.Table.from_pandas(df) mybinding.test(tab) 如果我像上面

浏览 211提问于2019-09-10得票数 2

1回答

通过pybind11到PyObject*的py箭头表

c++、pybind11、pyarrow、apache-arrow

#include <pybind11/pybind11.h>#include <iostream>#include <arrow/table.h> // Convert pyarrow table to native C++ object

浏览 21提问于2022-01-07得票数 2

1回答

无法将“`pyarrow`”表传递给“箭头：：表”

c++、pybind11、pyarrow、apache-arrow

我正试图通过pyarrow向c++传递一个pybind11表。在本例中，我只是试图打印从pyarrow传递来的一个python表的行数。#include <pybind11/pybind11.h>#include <iostream> #include <arrow/python

浏览 5提问于2022-01-07得票数 0

回答已采纳

1回答

从单个Arrow文件读取多个表

pyarrow、apache-arrow

我已经创建了一个包含多个表的Arrow IPC文件。如何使用pyarrow逐个读取表？有例子吗？// table is a std::shared_ptr<arrow::Table> containing each // time a table

浏览 0提问于2021-10-13得票数 0

回答已采纳

1回答

使用pyarrow读取大型压缩json文件，类似于pandas阅读器功能。

pyarrow、apache-arrow

我有一个很大的压缩json文件，未压缩的单个文件大约有128GBs。使用.gz压缩时，文件大小约为21 is。我想利用pyarrow以块的形式读取文件，并将其转换为拼图数据集。我有以下代码，其中压缩的json文件通过pandas read_json读入块中，然后将这些块转换为apache箭头表，然后写出到parquet数据集： reader = pd.read_json("file.json.gz首先，我希

浏览 59提问于2020-11-06得票数 0

4回答

在c++中读取拼图文件比在python中慢。

python、c++、parquet、pyarrow、apache-arrow

我编写了代码来使用c++和python读取相同的拼图文件。对于python来说，读取文件所花费的时间要比在c++中少得多，但我们通常知道，在c++中执行比在python中快得多。中使用的代码是-import pandas as pd import pyarrow as

浏览 4提问于2021-06-06得票数 1

回答已采纳

3回答

是否有可能从cython中的极性访问底层数据？

python、cython、python-polars

对于polars，是否存在访问cython/c++中的底层结构的问题？我有许多获取np.ndarrays和迭代的脚本。极地有类似的东西吗？

浏览 16提问于2022-07-24得票数 2

1回答

使用带Pyarrow的datetimes溢出错误

datetime、parquet、pyarrow、apache-arrow

在尝试使用to_pydict()转换为Python类型时，我收到以下错误： 82 pyarrow/table.pxi in pyarrow.lib.Table.to_pydict (/arrow/python/

浏览 6提问于2017-12-22得票数 1

回答已采纳

1回答

将熊猫数据文件写入羽毛或拼花文件，将列表值转换为numpy数组。

pandas、pyarrow

我用pd.to_feather()把熊猫的数据格式写到磁盘上，我注意到在把它们读回来之后，一些以前起作用的代码现在失败了。我刚刚检查了一下，原因是我的原始数据same有一些带有list值的列，当将这些值写入羽毛(或地板)时，这些值被转换为numpy.ndarray类型，因此从羽毛读取它们不会产生相同的原始类型。我读了皮亚罗的文档，搜索了熊猫的问题，但我什么也没找到。我的解决方案是把数据文件写成泡菜文件，但是它们比泡菜

浏览 9提问于2022-10-29得票数 0

回答已采纳

1回答

如何在c++中读取羽毛文件时启用内存映射

python、c++、pyarrow、apache-arrow、feather

在python和c++中读取相同的羽毛文件时，函数c++比我为c++使用的API执行得更好。当我进一步研究时，我发现主要的区别在于在python中，read_table() API使用了一个名为memory_map的标志(默认设置为true )。当我禁用此标志时，c++ API的性能比read_table()在

浏览 1提问于2021-06-11得票数 1

1回答

使用Pyarrow的C++ API的一致示例

pyarrow

我正在尝试使用Pyarrow的C++ API。目前在正式文档中还没有这方面的例子，这是我所能想出的最简单的方法：#include <arrow/python/platform.h> #include "arrow/pyth

浏览 1提问于2022-03-28得票数 1

回答已采纳

1回答

apache箭头如何促进“无跨系统通信开销”？

python、pyspark、rust、pyarrow、apache-arrow

我对这个项目的理解(通过pyarrow的角度)是，它描述了数据的内存和格式，这样多个任务就可以像读取一个宝藏地图一样读取它，并且所有的任务都可以找到自己的方法来处理相同的数据(而不需要复制)。我想我可以看到Python/Pandas在单个进程中是如何工作的；很容易创建一个Arrow数组，将它传递给不同的对象，并观察整个“零拷贝”操作。然而，当我们谈论无开销的跨系统通信时，

浏览 1提问于2019-09-17得票数 5

1回答

从数据帧转换而来的apache箭头文件在使用arrow.js读取时提供空。

python、node.js、pyarrow、apache-arrow

我使用.arrow将一个示例数据转换为pyarrow文件import pandas as pd a 3 non-null int64 memory usage: 104.0 bytesconst a

浏览 4提问于2019-10-09得票数 5

回答已采纳

1回答

是否可以将行附加到现有的Arrow* (PyArrow)表中？*

pyarrow、apache-arrow

我知道“许多Arrow对象是不可变的:一旦构建，它们的逻辑属性就不能再改变了”()。在里有人说 Arrow C++中的表列可以分块，因此附加到表中是零拷贝操作，不需要简单的计算或内存分配。但是，我无法在文档中找到如何将行附加到表中。pyarrow.concat_tables(tables, promote=False)也做了类似的事情，但据我所

浏览 9提问于2022-03-10得票数 4

回答已采纳

2回答

如何从熊猫或碧萝中加载modin数据

pyarrow、modin

由于Modin不支持从s3上的多个py箭头文件中加载数据，所以我使用py箭头加载数据。import s3fs from pyarrow import parquet s3 = s3fs.S3FileSystemendDate"]如果我知道想要将数据放在Modin df中进行并行计算是否有一种方法可以直

浏览 4提问于2020-09-02得票数 5

2回答

pandas.to_gbq()返回"ArrowTypeError:预期字节，得到一个'datetime.date‘对象’错误

python、pandas、google-bigquery

pandas.to_gbq()最近开始返回一个错误，尽管df模式/数据类型与BigQuery表的数据类型完全相同，但当我试图将数据添加到BigQuery表时，返回了一个错误。\cloud\bigquery\_pandas_helpers.py:617 in dataframe_to_arrow bq_to_arrow_array(get_column_or_indexreturn pyarrow.Array.from_pandas(s

浏览 49提问于2022-07-08得票数 3

1回答

使用load_table_from_dataframe时出错

python、pandas、google-bigquery

在使用相同的方法时，获取以下错误：Traceback (most recent= dataframe_to_arrow(dataframe, bq_schema) File "/home/aarpan_roy/.local/lib/python2.7/site-packages(series, type=

浏览 5提问于2020-08-23得票数 0

2回答

向HuggingFace数据集添加新列

python、numpy、word-embedding、pyarrow、huggingface-datasets

在我有5000000行的数据集中，我想在我的数据集中添加一个名为“嵌入”的列。args，**kwargs) 489数据集: List"Dataset”= list(out.values())如果isinstance( out，dict) out 490 #re-对输出应用格式包装器中的= InMemoryTable.from_pydict({name: column}) 3349 #串联表水平3350表= ConcatenationTable.from_ta

浏览 3提问于2021-11-22得票数 2

3回答

熊猫to_gbq() TypeError“预期字节，得到一个'int‘对象

python、pandas、google-bigquery

我正在使用pandas_gbq模块尝试将数据添加到Google BigQuery中的一个表中。 ArrowTypeError:预期字节，有一个'int‘对象。我可以确认数据格式的数据类型与BQ表的模式相匹配。我发现这篇文章是关于Parquet文件不能具有混合数据类型的：在我收到的错误消息中，我看到了对Parquet文件的引用，所以我假设df.to

浏览 6提问于2022-03-21得票数 4

1回答

将星星之火转换为熊猫的dataframe有例外:在使用基于文件的收集时不支持箭头。

python、pandas、azure、pyspark、azure-databricks

我正在尝试将星火数据转换为Azure数据库中的熊猫数据。但我得到了以下错误：#read file接下来，我尝试使用下面的代码将其转换为熊猫数据格式我得到了以下错误:异常:在使用基于文件的收集时不支持箭头。以下是

浏览 0提问于2019-08-26得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

通过pybind11到PyObject*的py箭头表

无法将“`pyarrow`”表传递给“箭头：：表”

从单个Arrow文件读取多个表

使用pyarrow读取大型压缩json文件，类似于pandas阅读器功能。

在c++中读取拼图文件比在python中慢。

是否有可能从cython中的极性访问底层数据？

使用带Pyarrow的datetimes溢出错误

将熊猫数据文件写入羽毛或拼花文件，将列表值转换为numpy数组。

如何在c++中读取羽毛文件时启用内存映射

使用Pyarrow的C++ API的一致示例

apache箭头如何促进“无跨系统通信开销”？

从数据帧转换而来的apache箭头文件在使用arrow.js读取时提供空。

是否可以将行附加到现有的Arrow* (PyArrow)表中？*

如何从熊猫或碧萝中加载modin数据

pandas.to_gbq()返回"ArrowTypeError:预期字节，得到一个'datetime.date‘对象’错误

使用load_table_from_dataframe时出错

向HuggingFace数据集添加新列

熊猫to_gbq() TypeError“预期字节，得到一个'int‘对象

将星星之火转换为熊猫的dataframe有例外:在使用基于文件的收集时不支持箭头。

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐