腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(1774)
视频
沙龙
1
回答
使用
pyarrow
读取
大型
压缩
json
文件
,
类似于
pandas
阅读器
功能
。
pyarrow
、
apache-arrow
我有一个很大的
压缩
json
文件
,未
压缩
的单个
文件
大约有128GBs。
使用
.gz
压缩
时,
文件
大小约为21 is。我想利用
pyarrow
以块的形式
读取
文件
,并将其转换为拼图数据集。我想模仿panda的
阅读器
功能
,但遇到了一些问题。我有以下代码,其中
压缩
的
json
文件
通过
pandas
read_<e
浏览 59
提问于2020-11-06
得票数 0
1
回答
是否可以附加到现有的羽毛格式
文件
?
python
、
pandas
、
feather
有没有办法将熊猫的数据添加到现有的羽毛格式
文件
中?
浏览 0
提问于2018-11-26
得票数 4
7
回答
Python:将
pandas
数据帧保存到拼图
文件
python-3.x
、
hdfs
、
parquet
可以将
pandas
数据框直接保存到拼图
文件
中吗?如果没有,建议的流程是什么? 目标是能够将拼图
文件
发送给另一个团队,他们可以
使用
scala代码
读取
/打开该
文件
。谢谢!
浏览 0
提问于2016-12-10
得票数 27
1
回答
使用
Pyarrow
读取
分区的拼图
文件
会占用太多内存
pandas
、
hdfs
、
parquet
、
impala
、
pyarrow
我有一个由分区的拼图
文件
组成的
大型
Impala数据库。我直接
使用
HDFS将一个Parquet分区复制到本地磁盘。此分区总共有15 of,由许多
文件
组成,每个
文件
大小为10MB。我正在尝试
使用
Pandas
与
Pyarrow
引擎或
Pyarrow
直接
读取
,但它在内存中的大小
使用
了超过60‘t的RAM,并且它在
使用
所有内存之前不会
读取
整个数据集。内存
使用
量
浏览 32
提问于2019-02-02
得票数 1
5
回答
如何
读取
Python
Pandas
中本地存储的ORC
文件
?
python
、
pandas
、
pyspark
、
data-science
、
orc
我是否可以将ORC
文件
视为
类似于
包含数据的列标题和行标签的CSV
文件
?如果是这样,我能以某种方式将其读入一个简单的
pandas
数据帧吗?我对Hadoop或Spark这样的工具不是很熟悉,但仅仅为了在Python中查看本地ORC
文件
的内容,有必要理解它们吗?
文件
名为someFile.snappy.orc 我可以在网上看到spark.read.orc('someFile.snappy.orc')可以工作,但即使在import pyspark之后,它也会抛出错误
浏览 2
提问于2018-10-19
得票数 8
2
回答
如何解压拼图
文件
?
python
、
apache-spark
、
pyspark
、
gzip
、
parquet
我有一个大小约为60MB的test.parquet
文件
。
使用
下面的脚本,我发现拼图
文件
的列
压缩
是GZIP。(0).column(0)) 输出 <
pyarrow
.BYTE_ARRAY path_in_schema: event-id statistics: data_page_offset: 4 total_compressed_size: 37
浏览 29
提问于2021-07-02
得票数 1
5
回答
如何在python中将
JSON
结果转换为Parquet?
python
、
json
、
parquet
按照下面的脚本将
JSON
文件
转换为parquet格式。我正在
使用
pandas
库来执行转换。这是我
使用
的原始
json
文件
:{ "a":"01","b":"teste01“},{ "a":"02","b":"teste02”}import
pandas
as pd
浏览 35
提问于2019-12-02
得票数 11
3
回答
使用
AWS Lambda
读取
/写入镶木面板
文件
?
amazon-s3
、
aws-lambda
、
parquet
嗨,我需要一个lambda函数,将
读取
和写入镶木地板
文件
,并将它们保存到S3。我试图用我需要
使用
pyarrow
的库制作一个部署包,但是我得到了cffi库的初始化错误:我甚至可以用AWS Lambda制作镶木地板
文件</em
浏览 16
提问于2017-07-28
得票数 4
1
回答
用地质公园从HDFS
读取
shapefile
python
、
hadoop
、
geopandas
我尝试了标准的方法,但是它不识别HDFS目录;相反,我相信它在我的本地目录中搜索,因为我对本地目录进行了测试,并且正确地
读取
了shapefile。这是我
使用
的代码: shp = gpd.read_file('hdfs://hdfsha/my_hdfs_directory/my_shapefile.shpDriverError: hdfs://hdfsha/my_hdfs_directory/my_shapefile.sh
浏览 5
提问于2021-02-19
得票数 1
回答已采纳
7
回答
如何将Parquet
文件
读入
Pandas
DataFrame?
python
、
pandas
、
dataframe
、
parquet
、
blaze
如何在不设置集群计算基础设施(如Hadoop或Spark )的情况下,将适度大小的Parquet数据集读入内存中的
Pandas
DataFrame?这只是我想在内存中阅读的少量数据--在笔记本电脑上
使用
一个简单的Python脚本。数据不驻留在HDFS上。它要么在本地
文件
系统上,要么在S3中。
浏览 22
提问于2015-11-19
得票数 146
回答已采纳
4
回答
在
pandas
数据帧中查找嵌套列
python
、
python-3.x
、
pandas
、
pyarrow
我有一个
大型
的数据集,其中包含许多(
压缩
的)
JSON
格式的列。我正在试着把它转换成拼花以便后续处理。有些柱具有嵌套结构。现在,我想忽略这个结构,只将这些列作为(
JSON
)字符串输出。当我
使用
parquet编写代码时,我会看到这样的消息: File "
pyarrow
/_parquet.pyx", line 1375, in
pyarrow
_parquet.ParquetWri
浏览 0
提问于2020-04-14
得票数 8
5
回答
在Python中获取parquet
文件
的模式
python
、
parquet
有没有什么python库可以用来只获取parquet
文件
的模式? 目前,我们正在Spark中将拼图
文件
加载到dataframe中,并从dataframe中获取模式以显示在应用程序的某些UI中。
浏览 9
提问于2017-01-10
得票数 9
1
回答
使用
Dask从google云存储
读取
拼图
文件
python
、
google-cloud-storage
、
parquet
、
dask
、
pyarrow
使用
一组csv
文件
可以工作,但不方便(速度较慢,无法
压缩
,无法只
读取
某些列),所以我尝试
使用
apache parquet格式。这篇文章似乎行得通:
pandas
_df = pd.DataFrame({'x' : [2,3, 2], 'y': [1, 0, 0]}) dask_df= dd.from_
pandas
(
pandas
_df, npartitions=
浏览 0
提问于2018-09-24
得票数 1
回答已采纳
2
回答
读取
拼花
文件
时出现python应用程序函数错误
python
、
azure-functions
、
parquet
我正在开发一个python脚本,它将作为一个蔚蓝的应用程序
功能
运行。它应该从我们的gen1数据集中
读取
一个拼花
文件
,并对其进行一些处理。执行“Functions.get_warehouse_from_sap”(失败,Id=227a48b8-0486-4c3f-8758-1f6298af68,Duration=9122ms) 当它试图
读取
拼花
文件
时会发生这种情况我尝试
使用
pyarrow
和
pandas
.read_parquet函数,但两者都给出了相同的错误
浏览 11
提问于2022-11-21
得票数 0
1
回答
将Parquet转换为常规TXT
文件
的最快方法是什么?
javascript
、
python
、
module
、
parquet
我正在寻找转换速度非常快从拼花
文件
格式到TXT。 在parquet-tools cat parque_file > parque_file.txt中尝试过,但是对于5KB
文件
需要2+秒。
浏览 7
提问于2019-03-05
得票数 0
2
回答
如何
使用
pyarrow
编写拼图面板元数据?
python
、
parquet
、
pyarrow
我
使用
pyarrow
来创建和分析具有生物信息的镶嵌板表格,我需要存储一些元数据,例如数据来自哪个样本,它是如何获得和处理的。有没有办法用
pyarrow
编写
文件
范围内的Parquet元数据?
浏览 17
提问于2018-09-01
得票数 17
回答已采纳
1
回答
皮亚罗的拼花档案,还是只为熊猫?
pandas
、
parquet
、
pyarrow
是否有任何利弊
使用
吡箭打开csv
文件
而不是pd.read_csv? 我是否应该
使用
pyarrow
来编写拼图
文件
而不是pd.to_parquet?最终,我将存储原始
文件
(csv、
json
和xlsx)。我用熊猫或
pyarrow
阅读了这些
文件
,添加了一些元数据列,然后保存了一个经过改进/转换的拼花
文件
(星火风味,快速
压缩
)。然后,我用
pyarrow
(可能最终是Spark
浏览 1
提问于2019-09-15
得票数 3
1
回答
在hadoop中添加Zip
文件
支持
hadoop
、
zip
、
hadoop-streaming
、
hadoop2
默认情况下,Hadoop支持
读取
.gz
压缩
文件
,我希望对Hadoop
文件
也有类似的支持。我应该能够
使用
hadoop -text命令
读取
压缩
文件
的内容。我正在寻找一种方法,在这种方法中,我不必为zip
文件
实现输入格式和记录
阅读器
。我希望我的工作是完全不可知的格式的输入
文件
,它应该工作,无论数据是
压缩
或解
压缩
。
类似于
for.gz
文件
浏览 1
提问于2015-03-23
得票数 0
4
回答
可以分块
读取
拼图
文件
吗?
parquet
例如,
pandas
的read_csv有一个chunk_size参数,它允许read_csv在CSV
文件
上返回一个迭代器,这样我们就可以分块
读取
它。有没有办法以块的形式
读取
拼图
文件
?
浏览 3
提问于2019-11-29
得票数 8
1
回答
将数据加载到Catboost池对象
python
、
pandas
、
parquet
、
catboost
、
catboostregressor
我正在训练Catboost模型并
使用
Pool对象,如下所示:eval_setearly_stopping_rounds=EARLY_STOPPING_ROUNDS, eval_set=eval_set) 对于x_train、y_train、x_validation和y_validation,它们来自
Pandas
DataFrame类型(数据集保存为Parquet
文件
,我
使用
PyArrow<
浏览 5
提问于2021-06-15
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Pandas 2.0 简单介绍和速度评测
10个Pandas的另类数据处理技巧
Python笔记-数据加载、存储与文件格式(2)
Python初学者基础之如何读取文件格式
Pandas 2.0正式版发布:Pandas 1.5,Polars,Pandas 2.0 速度对比测试
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券