腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
2
回答
在
`
pyarrow
`
测试
中
使用
内存
中
的
文件系统
、
、
、
我有一些编写代码
的
pyarrow
拼图数据集。我想要有一个集成
测试
,以确保文件被正确写入。我想通过将一个小
的
示例数据块写入
内存
中
的
文件系统
来做到这一点。但是,我正在努力寻找一种适用于
pyarrow
的
-compatible
内存
文件系统
接口。 您将在下面找到一个包含filesystem变量
的
代码片段。我想用
内存
中
的
<
浏览 35
提问于2019-05-29
得票数 1
回答已采纳
1
回答
将Pandas DataFrame序列化为
内存
中
的
缓冲区表示
、
、
、
将DataFrame序列化为
内存
中表示
的
最快方法是什么?根据一些研究,似乎人们普遍认为格式是大多数度量标准中最快
的
可用格式。我
的
目标是获得DataFrame
的
序列化字节-- Feather唯一
的
问题是我想避免写入磁盘和从磁盘加载
的
开销,而Feather API似乎只允许file I/O。对于这一点,我应该寻找不同
的
格式吗,或者
在
Python
中
是否有一种方法可以“伪造”一个文件,迫使Feather改为写入<e
浏览 19
提问于2020-05-27
得票数 1
回答已采纳
1
回答
Pyarrow
0.15.1上传空文件到HDFS
、
、
您好,我正在尝试
使用
pyarrow
文件系统
接口中
的
upload方法将csv文件上载到我
的
HDFS群集: pa.hdfs.HadoopFileSystem.upload(fs, '/data/test.csv', f) 由于某种原因,这总是将带有0B
的
空文件
浏览 14
提问于2019-11-22
得票数 2
回答已采纳
1
回答
从Parquet数据
中
对DF分组
的
Dask
内存
错误
、
、
、
、
我创建了一个拼花数据集,方法是将数据读入熊猫df
中
,对数据
使用
get_dummies(),并将其写入一个拼花文件:encoded = pd.get_dummies(df, columns=['account'])大熊猫
的
df为270万列,4000列。接下来,我将拼花数据读取到一个dask df
中
,并尝试在其上执行groupby: c = Cl
浏览 1
提问于2018-04-27
得票数 0
回答已采纳
1
回答
Apache Arrow
在
Python
中
从Java获取向量
、
、
我
在
java (arrow-vector,arrow-memory-unsafe)和python (
pyarrow
) 中
使用
Apache库
在
不同
的
进程()
中
。我试图在
内存
中
实现零拷贝DataFrame,但是
在
java库
中
找不到从python获得箭头向量
的
内存
地址
的
API。我
在
pyarrow
库中发现了该API,但在java库<em
浏览 8
提问于2020-12-30
得票数 0
1
回答
如何
使用
fs.HadoopFileSystem对HDFS文件执行常见操作?
、
、
我需要
使用
python3对HDFS目录做一些普通操作。例如,如果存在dir,则为mkdir,chmod,chown,test。有人能回答我提到的如何
使用
新
的
API进行操作吗?
浏览 10
提问于2021-12-06
得票数 0
回答已采纳
1
回答
怎样才能有效地将
pyarrow
表插入到MongoDB
中
?
、
、
相关库pymongoarrow支持以
pyarrow
.Table格式检索mongo查询结果,但是没有类似的方法(批量)
在
mongo
中
插入
pyarrow
.Tables。一种方法是插入将
pyarrow
.Table转换为
使用
to_pylist()方法
的
字典列表,但是这样它将无法加载比
内存
更多
的
数据(在数据巨大
的
情况下)。
浏览 5
提问于2022-09-27
得票数 0
2
回答
Pyarrow
s3fs按时间戳分区
、
在
将
pyarrow
文件写入s3fs时,是否可以
使用
parquet表
中
的
时间戳字段按"YYYY/MM/DD/HH“对s3
文件系统
进行分区
浏览 13
提问于2018-03-03
得票数 7
回答已采纳
1
回答
皮亚罗
的
拼花档案,还是只为熊猫?
、
、
我一直
在
测试
Azure上
的
地板文件,而不是将数据加载到PostgreSQL表
中
,因为我对熊猫做了很多提取/转换步骤,并且可能很快就会发现火花。是否有任何利弊
使用
吡箭打开csv文件而不是pd.read_csv? 我是否应该
使用
pyarrow
来编写拼图文件而不是pd.to_parquet?我用熊猫或
pyarrow
阅读了这些文件,添加了一些元数据列,然后保存了一个经过改进/转换
的
拼花文件(星火风味,快速压缩)。然后,
浏览 1
提问于2019-09-15
得票数 3
1
回答
是否可以强迫PyFilesystem使
文件系统
成为单例?
、
我正在
测试
的
代码
使用
open_fs(file_url)创建默认
文件系统
。当我
测试
这段代码时,我现在可以传入mem://filepath/filename来
使用
内存
文件系统
来运行
测试
。但是,为了进行
测试
,我需要用
测试
文件填充
内存
文件系统
。有什么办法让我
在
文件系统
上强制
使用
全局sing
浏览 2
提问于2019-03-09
得票数 1
回答已采纳
2
回答
读取拼花文件时出现python应用程序函数错误
、
、
我正在开发一个python脚本,它将作为一个蔚蓝
的
应用程序功能运行。它应该从我们
的
gen1数据集中读取一个拼花文件,并对其进行一些处理。当在VS代码
中
以调试模式运行时,它工作得很好,但是当我将脚本部署到app函数时,它会以一条不太重要
的
消息检索一个错误。我尝试
使用
pyarrow
和pandas.read_parquet函数,但两者都给出了相同
的
错误。我试图
在
代码
的
这个特定点周围放置一个try/execept,但是会检索到任何多
浏览 11
提问于2022-11-21
得票数 0
1
回答
pyarrow
pq.ParquetFile和相关函数抛出OSError:无法反序列化节俭: TProtocolException:超出大小限制错误
、
、
、
、
作为分析管道
的
一部分,我
使用
了大约60000个拼花文件,其中包含每一行必须连接
的
数据。每个文件都可以包含一组不同
的
列,
在
将它们与连接之前,我需要统一它们。当读取Pandas
使用
pyarrow
创建
的
拼花文件时,我得到了错误OSError: Couldn't deserialize thrift: TProtocolException: Exceeded size为此,我确定了导致错误
的
一个文件。这个文件
在
我<
浏览 35
提问于2022-10-29
得票数 0
回答已采纳
1
回答
使用
Pyarrow
读取分区
的
拼图文件会占用太多
内存
、
、
、
、
我有一个由分区
的
拼图文件组成
的
大型Impala数据库。我直接
使用
HDFS将一个Parquet分区复制到本地磁盘。此分区总共有15 of,由许多文件组成,每个文件大小为10MB。我正在尝试
使用
Pandas与
Pyarrow
引擎或
Pyarrow
直接读取,但它在
内存
中
的
大小
使用
了超过60‘t
的
RAM,并且它在
使用
所有
内存
之前不会读取整个数据集。
内存
<em
浏览 32
提问于2019-02-02
得票数 1
3
回答
带有
pyarrow
内存
的
dask read_parquet发生故障
、
、
我正在
使用
dask来写和读拼花。我
使用
快速拼接引擎进行写作,
使用
pyarrow
引擎进行阅读。我
的
worker有1 gb
的
内存
。对于fastparquet,
内存
使用
率很好,但当我切换到
pyarrow
时,它就会崩溃,并导致worker重新启动。我有一个可重现
的
例子,
在
一个1 1gb
内存
限制
的
worker上,
pyarrow
失败了。实际
浏览 0
提问于2018-06-15
得票数 3
1
回答
使用
Apache箭头读取拼图文件
、
、
、
、
我有一些
使用
PyArrow
(Apache Arrow)用Python语言编写
的
Parquet文件:table =
pyarrow
.parquet.read_table("example.par
浏览 4
提问于2020-05-27
得票数 7
2
回答
如何仅
使用
PyArrow
.Table结构(最好保持连续
内存
排序)
在
Python中转换
PyArrow
对象?
、
、
、
、
现在,我正在
使用
类似于以下示例
的
东西,我认为这个示例不太有效(我省略了简洁
的
模式):import
pyarrow
as pa Original: [3 0 1 3] [[3 3 2] [0 1 3]
在
我目前正在开发
的
程序
中
,我正在
使用
P
浏览 2
提问于2021-06-22
得票数 1
回答已采纳
3
回答
是否有可能从cython
中
的
极性访问底层数据?
、
、
对于polars,是否存在访问cython/c++
中
的
底层结构
的
问题? 我有许多获取np.ndarrays和迭代
的
脚本。极地有类似的东西吗?
浏览 16
提问于2022-07-24
得票数 2
1
回答
如何
使用
FileSystem和
pyarrow
.csv.read_csv读取文件?
、
、
我想在谷歌桶
中
读取一个CSV文件。我该怎么做?import
pyarrow
.csv as csv csv.read_csv("bucket/fo
浏览 16
提问于2022-03-18
得票数 0
3
回答
如何损坏
文件系统
、
、
、
、
我将在一些大型
文件系统
(大约50 TB )上
测试
'xfs_repair‘,因为过去
内存
使用
率很高。虽然我只能在正确
的
文件系统
上
测试
这个程序,但是最好在一个损坏
的
系统上
测试
它们。那么什么才是破坏
文件系统
的
最佳方法呢?额外
的
学分,如果方法每次重复给同样
的
腐败..。让人们明白我
在
2006年
的
意思 “要在多To
文件系统
浏览 0
提问于2009-07-14
得票数 9
回答已采纳
2
回答
如何
使用
python将熊猫数据帧数据存储到azure blob
中
?
、
、
、
、
我想以拼图文件格式将处理后
的
数据存储
在
pandas dataframe到azure blob
中
。但在上传到blobs之前,我必须将其作为parquet文件存储
在
本地磁盘
中
,然后再上传。我想把
pyarrow
.table写成
pyarrow
.parquet.NativeFile,然后直接上传。有没有人能帮我。下面的代码运行正常: import
pyarrow
as pa batte
浏览 20
提问于2019-02-13
得票数 3
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券