腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何
解决
“
太多
打开
的
文件
错误
”
时
,
使用
pyarrow
的
箭头
数据
集
?
pyarrow
、
ulimit
import
pyarrow
as pads = dataset.dataset(f, format='parquet', partitioningvirtual memory (kbytes, -v) unlimited file locks (-x) unlimited 你有什么办法
解决
这个问题吗我有一种感觉,我已经把我
的
ulimit设置得相当高了,但也许我可以调整一下。
浏览 25
提问于2021-10-09
得票数 0
回答已采纳
1
回答
pyarrow
保存python对象
python
、
python-3.x
、
serialization
、
pyarrow
我已经尝试了一段时间,阅读他们
的
文档,但我仍然觉得我不能完全掌握它。我看到了他们对任意python对象进行序列化
的
depcrecated方法,但由于它已被弃用,我想知道保存对象列表或任意python对象
的
正确方法是什么? 什么时候你还想费心
使用
pyarrow
呢?
浏览 0
提问于2020-10-29
得票数 2
1
回答
如何
纠正csv
文件
混合类型,如果
使用
吡
箭头
写入
数据
集
的
拼板?
python
、
file
、
types
、
format
、
pyarrow
我目前正在
使用
pyarrow
将一堆.csv
文件
从目录中读取到
数据
集中,如下所示:ArrowInvalid: In CSV column #14: Row #111060: CSV conversion error to
浏览 11
提问于2021-12-25
得票数 1
回答已采纳
1
回答
pyarrow
.lib.ArrowInvalid:无效空值
python
、
apache-beam
、
pyarrow
我正在尝试
使用
apache beam管道,该管道最终保存了一个拼图
文件
,并
使用
py
箭头
和模式验证
数据
,我不知道为什么会收到这个
错误
: facebook_insights_performance_ads/Write/WriteImpl/WriteBundles‘:运行“写入最终
数据
集
/写核心
数据
集
pyarrow
.lib.ArrowInvalid”
时</e
浏览 8
提问于2022-03-14
得票数 1
1
回答
使用
pyarrow
读取大型压缩json
文件
,类似于pandas阅读器功能。
pyarrow
、
apache-arrow
我有一个很大
的
压缩json
文件
,未压缩
的
单个
文件
大约有128GBs。
使用
.gz压缩
时
,
文件
大小约为21 is。我想利用
pyarrow
以块
的
形式读取
文件
,并将其转换为拼图
数据
集
。我有以下代码,其中压缩
的
json
文件
通过pandas read_json读入块中,然后将这些块转换为apache
箭头
表,然后写出到parquet
数
浏览 59
提问于2020-11-06
得票数 0
1
回答
如何
利用IO流生成
PyArrow
数据
集
?
pyarrow
我有一个python程序,它以
文件
的
形式读取一个拼图
文件
,并试图用它来构造一个
pyarrow
数据
集
。我可以
使用
以下方法将
文件
编辑器读入比罗罗表中:但是,将
文件
读取程序直接传递给
数据
集
初始化程序会导致
错误
这是有意义<em
浏览 8
提问于2022-01-25
得票数 0
1
回答
在用
pyarrow
.parquet编写
数据
集
时
,是否可以重写
文件
名
的
uuid自动分配?
io
、
parquet
、
pyarrow
假设我有一只熊猫DataFrame df,我想将它作为
数据
集
存储在磁盘上,
使用
吡
箭头
拼板,我会这样做:some_path__
浏览 0
提问于2018-10-16
得票数 3
1
回答
皮亚罗
的
拼花档案,还是只为熊猫?
pandas
、
parquet
、
pyarrow
是否有任何利弊
使用
吡箭
打开
csv
文件
而不是pd.read_csv? 我是否应该
使用
pyarrow
来编写拼图
文件
而不是pd.to_parquet?最终,我将存储原始
文件
(csv、json和xlsx)。我用熊猫或
pyarrow
阅读了这些
文件
,添加了一些元
数据
列,然后保存了一个经过改进/转换
的
拼花
文件
(星火风味,快速压缩)。然后,我用
pyarrow
(可能
浏览 1
提问于2019-09-15
得票数 3
1
回答
为什么分区
的
拼板
文件
占用更大
的
磁盘空间?
python
、
parquet
、
pyarrow
我正在学习
使用
python和py
箭头
的
拼图
文件
。在压缩和最小化磁盘空间方面,拼花是很棒
的
。我
的
数据
集
是190 3MB
的
csv
文件
,当保存为snappy-compressed parquet
文件
时
,该
文件
以单个3MB
文件
结束。但是,当我将
数据
集
保存为分区
文件
时
,它们
的<
浏览 17
提问于2019-10-13
得票数 4
回答已采纳
1
回答
pyarrow
pq.ParquetFile和相关函数抛出OSError:无法反序列化节俭: TProtocolException:超出大小限制
错误
metadata
、
parquet
、
python-3.8
、
pyarrow
、
apache-arrow
作为分析管道
的
一部分,我
使用
了大约60000个拼花
文件
,其中包含每一行必须连接
的
数据
。每个
文件
都可以包含一组不同
的
列,在将它们与连接之前,我需要统一它们。当读取Pandas
使用
pyarrow
创建
的
拼花
文件
时
,我得到了
错误
OSError: Couldn't deserialize thrift: TProtocolException: Exceeded s
浏览 35
提问于2022-10-29
得票数 0
回答已采纳
3
回答
在相同环境下
使用
CLI读取DataFrame与可执行
文件
时
的
不同行为
python
、
pandas
、
pyinstaller
、
parquet
、
pyarrow
请考虑以
的
形式执行以下程序import
pyarrow
print(
pyarrow
它读取columns=[]
的
全部
数据
D:\foo\env\lib\site-packages\
pyarrow
\__init__.py versionPyinstaller创建
的
可执行
浏览 4
提问于2021-07-22
得票数 10
回答已采纳
5
回答
Python
使用
py
箭头
- ArrowNotImplementedError:对未构建
的
编解码器'snappy‘
的
支持
parquet
、
pyarrow
、
apache-arrow
使用
Python、Parquet和Spark,并在升级到
pyarrow
=3.0.0后运行到
pyarrow
=3.0.0。没有此
错误
的
前一个版本是
pyarrow
=0.17。
错误
不出现在
pyarrow
=1.0.1中,在
pyarrow
=2.0.0中显示。其想法是
使用
Snappy压缩将熊猫DataFrame编写为Parquet
数据
集
(在Windows上),然后
使用
Spark
浏览 3
提问于2021-02-02
得票数 15
回答已采纳
1
回答
皮亚罗上带空列
的
拼花
python
、
pyarrow
我正在
使用
PostgreSQL读取pandas.read_sql上
的
表,然后将其转换为
Pyarrow
表,并将其保存在本地
文件
系统中。use_legacy_dataset = True# print(result)问题是,我
的
SELECT当我在本地
文件
系统中分区这个要写(write_to_dataset)
的
文件
时
,有几个
文件
只有以
浏览 8
提问于2022-01-03
得票数 1
回答已采纳
1
回答
皮亚罗与熊猫
的
整合
pandas
、
pyarrow
、
apache-arrow
我计划:
使用
py
箭头
的
数据
(它是新
的
)。与熊猫相比,其想法是获得更好
的
性能和内存利用( apache
箭头
压缩)。似乎
pyarrow
不支持按键连接两个表/
数据
集
,所以我不得不回过头来看熊猫。 我不太明白比阿罗<->熊猫
的
整合是
如何
运作
的
。熊猫真的会
使用
apache
箭头
<
浏览 1
提问于2021-01-01
得票数 1
回答已采纳
1
回答
如何
从R连接到HDFS,并
使用
箭头
读取/写入参数?
r
、
hadoop
、
hdfs
、
pyarrow
、
apache-arrow
我有几个HDFS中
的
拼花
文件
,我想把它们读入R中,还有一些R中
的
数据
,我想把它们写进HDFS中,并以拼花
文件
的
格式存储。我想
使用
箭头
库,因为我相信它是R等价
的
pyarrow
和
pyarrow
是很棒
的
。问题是,在R
箭头
文档中,我无法找到有关
使用
HDFS
的
信息,而且通常也没有多少关于
如何
正确
使用
库<
浏览 7
提问于2022-05-16
得票数 1
1
回答
Pyarrow
没有安装python3.7(anaconda5.3.0,windows x64版本)
python
、
pandas
、
anaconda
、
pyarrow
我通过安装anaconda5.3.0安装了python 3.7
的
64位windows版本。然后我试着安装
pyarrow
(“CondaInstallpy
箭头
”)。Anaconda最终将将 python
的
评级下调至3.6。之后事情就不太顺利了(奇怪
的
错误
信息)。最后,我不得不卸载Anaconda并重新安装它(必须卸载,因为它不进行修复或重新安装,如果程序
文件
夹不是空
的
)。 这就给我留下了3.7条python,但没有py
箭头
。还有另一个包
浏览 0
提问于2018-10-11
得票数 3
回答已采纳
2
回答
Pyarrow
.lib.Schema对
pyarrow
.parquet.Schema
python
、
pyspark
、
parquet
、
pyarrow
当我试图跨多个分区
的
parquet
文件
加载
时
,一些模式会被推断为无效,因为缺少了用空值填充模式
的
数据
。我认为在
pyarrow
.parquet.ParquetDataset中指定模式会
解决
这个问题,但我不知道
如何
构造正确
的
pyarrow
.parquet.Schema类型
的
模式。.parquet', 'test_root/partition2/file2.parq
浏览 0
提问于2018-12-11
得票数 3
回答已采纳
2
回答
使用
pyarrow
.dataset读取存储为csv
的
分区
数据
集
csv
、
pyarrow
、
data-partitioning
、
apache-arrow
pyarrow
中有没有办法读取由csv
文件
组成
的
分区
数据
集
,这些
文件
的
列名没有存储在第一行?我试图做
的
本质上是:from
pyarrow
import fs filesystem = fs.HadoopFileSystem(filesystem = filesystem, format = 'csv', partitioning
浏览 29
提问于2021-03-11
得票数 0
1
回答
AWS层无法导入模块“Lambda _function”:没有名为“
pyarrow
.lib”
的
模块
python
、
amazon-web-services
、
aws-lambda
、
parquet
、
pyarrow
我按照以下步骤创建了一个用于AWS函数
的
层。安装
pyarrow
==5.0.0 -t python
使用
AWS上传了压缩
文件
,并成功地创建了一个图层。但是,当我试图导入py
箭头
时
,我会得到以下<e
浏览 8
提问于2022-02-17
得票数 1
5
回答
如何
修复"ImportError:
PyArrow
>= 0.8.0必须安装;但是,没有找到“?
apache-spark
、
pyspark
、
pyspark-sql
我
使用
PySpark 2.4.0并在pyspark中执行以下代码Python 2.7.16 (default, Mar 25 2019, 15:07:04) File "/Users/x/spark/python/pyspark/sql/udf.py", line 47, in _create_udf Fi
浏览 6
提问于2019-03-27
得票数 4
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Pandas 2.0 简单介绍和速度评测
教你3个简单解决方法!
10个Pandas的另类数据处理技巧
全面出击,Python基础之化零为整!
如何在 Linux 中轻松修正拼写错误的 Bash 命令
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券