腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
有没有
Python
模块
可以用
pyarrow
读取
avro
文件
?
pyarrow
、
apache-arrow
我知道有
pyarrow
.parquet用于
读取
镶木地板
文件
作为箭头表,但我正在寻找等效的
avro
?
浏览 22
提问于2019-06-05
得票数 3
回答已采纳
1
回答
使用Apache箭头
读取
拼图
文件
java
、
python
、
eclipse
、
parquet
、
apache-arrow
我有一些使用
PyArrow
(Apache Arrow)用
Python
语言编写的Parquet
文件
:现在,我想使用Java程序
读取
这些
文件
(最好是获得一个Arrow Table)。在
Python
中,我可以简单地使用以下代码从我的Parquet
文件
中获取一个Arrow Table: table =
pyarrow</e
浏览 4
提问于2020-05-27
得票数 7
1
回答
拼图-将数组编码成记录列表
arrays
、
pandas
、
schema
、
parquet
、
pyarrow
我正在使用Pandas和
pyarrow
创建拼花
文件
,然后使用Java (org.apache.parquet.
avro
.AvroParquetReader)
读取
这些
文件
的模式。我发现使用熊猫+
pyarrow
创建的拼花
文件
总是使用带有单个字段的记录数组来编码原始类型数组。下面是创建parquet
文件
的
python
脚本:impor
浏览 2
提问于2019-12-26
得票数 2
1
回答
忽略不存在于熊猫皮条中的柱子
python
、
parquet
、
pyarrow
给予:pd.read_parquet(x, columns=columns, engine="
pyarrow
") 如果
文件
x不包含c,它将发出:/lib/
python
3.6/site-packages/
pyarrow
/_dataset.pyx in
pyarrow
./lib/
python</e
浏览 4
提问于2021-01-13
得票数 0
回答已采纳
0
回答
avro
格式,通过
python
查找位置或跳过行
python
、
avro
我正在使用Apache
Avro
1.8.2
读取
一个大的
avro
文件
。但是,我想跳过前'N‘个记录或处理
文件
的5个线程的个别部分。
有没有
什么简单的方法可以在
avro
文件
中查找,而不会导致数据损坏,而不是顺序地遍历每条记录?我相信它是可拆分的格式,但我不确定
python
avro
模块
是否支持安全地跳到特定位置。目前我所能做的就是逐行处理: reader = DataFileReader(op
浏览 6
提问于2018-07-06
得票数 4
5
回答
如何使用
python
中的py箭头从S3
读取
已分区的拼图
文件
python
、
parquet
、
pyarrow
、
fastparquet
、
python-s3fs
我寻找使用
python
从s3中
读取
来自多个分区目录的数据的方法。的ParquetDataset
模块
具有从分区
读取
数据的能力。, self.fs) File "/home/my_username/anaconda3/lib/
python
3.6/site-packages/
pyarrow
/parquet.py", line
有没有
一种方法可以方便地从s3中这样的分区目录中<
浏览 8
提问于2017-07-13
得票数 60
回答已采纳
3
回答
如何在PySpark中
读取
Avro
文件
python
、
apache-spark
、
avro
、
pyspark
我正在写一个使用
python
的spark作业。然而,我需要读入一大堆
avro
文件
。 path, "org.apache.
avro
.mapreduce.AvroKeyInputFormat",脚本中的所有内容,我尝试创建一个环境变量
浏览 5
提问于2015-04-21
得票数 14
回答已采纳
1
回答
如何使用
python
2.7或更低版本
读取
和写入拼图
文件
python
、
automation
、
parquet
我想使用
Python
2.7或更低版本
读取
->更新,并写入拼图
文件
。面临与包相关的问题。请告诉我做同样事情的正确方法。
浏览 3
提问于2018-09-17
得票数 1
3
回答
如何在
python
中提取
avro
文件
的模式
python
、
schema
、
avro
我正在尝试使用
Python
Avro
library ()来
读取
由JAVA生成的
AVRO
文件
。既然模式已经嵌入到
avro
文件
中,为什么我需要指定一个模式
文件
?
有没有
办法自动提取它?发现了另一个叫做fastavro()的包可以提取
avro
模式。手册中指定的是
python
arvo包中的schema
文件
吗?非常感谢。
浏览 0
提问于2014-07-29
得票数 13
1
回答
Apache Arrow在
Python
中从Java获取向量
java
、
python
、
apache-arrow
我在java (arrow-vector,arrow-memory-unsafe)和
python
(
pyarrow
) 中使用Apache库在不同的进程()中。我试图在内存中实现零拷贝DataFrame,但是在java库中找不到从
python
获得箭头向量的内存地址的API。我在
pyarrow
库中发现了该API,但在java库中却没有。我需要的是: 用java创建向量,使用箭头作为内存映射APIget VectorSchemaRoot 的内存地址或描述符或javapass中的字段向量收集内存中的数据,将其映射到
pyth
浏览 8
提问于2020-12-30
得票数 0
1
回答
在Jupyter Notebook中
读取
一个巨大的.csv
文件
python
、
pandas
、
csv
、
jupyter-notebook
、
pyarrow
我正在尝试从Jupyter Notebook (
Python
)的.csv
文件
中
读取
数据。 .csv
文件
大小为8.5G,7000万行,30列 当我尝试
读取
.csv时,我得到了错误。以下是我的代码 import pandas as pd fr
浏览 136
提问于2020-04-24
得票数 1
1
回答
python
拼板安装在macos上使用snappy和thiftpy失败
python
、
parquet
我试着安装在macos 10.14.6上,
Python
3.7.4,pip19.1.1。 第一组错误与snappy有关。它们
可以用
brew install snappy和sudo pip3 install snappy修复。(问: pip3不能自动找出并满足依赖关系,或者至少指示如何解决这个问题?)/local/include -I/usr/local/opt/openssl/include -I/usr/local&
浏览 1
提问于2019-08-27
得票数 0
回答已采纳
1
回答
用
Python
访问Hadoop
python
、
hadoop
我是数据工程领域的新手,目前正在学习Hadoop
文件
系统及其应用。我想从我的
python
脚本中执行几个Hadoop命令,这样就可以执行所有的hdfs命令了。我想做的工作是:
读取
存储在hdfs中的各种
文件
,如文本、
avro
、csv和拼花
文件
。我希望所有这些任务都是从
python
脚本执行的,而不是通过从终端输入相应的命令来执行。一定要帮助我,并请告诉我,如果有一些库或
浏览 11
提问于2022-01-06
得票数 -1
1
回答
如何从feather bytes对象中
读取
数据帧
python
、
pandas
、
deserialization
、
feather
我在pandas dataframe中有bytes对象(它是羽毛数据),如下所示: df 0 b‘FEA1\x00\x05\x00\x00...名称: 0,数据类型:对象 如何将df0中的对象反序列化为dataframe?
浏览 12
提问于2019-09-24
得票数 0
回答已采纳
5
回答
如何
读取
Python
Pandas中本地存储的ORC
文件
?
python
、
pandas
、
pyspark
、
data-science
、
orc
我是否可以将ORC
文件
视为类似于包含数据的列标题和行标签的CSV
文件
?如果是这样,我能以某种方式将其读入一个简单的pandas数据帧吗?我对Hadoop或Spark这样的工具不是很熟悉,但仅仅为了在
Python
中查看本地ORC
文件
的内容,有必要理解它们吗?
文件
名为someFile.snappy.orc 我可以在网上看到spark.read.orc('someFile.snappy.orc')可以工作,但即使在import pyspark之后,它也会抛出错误
浏览 2
提问于2018-10-19
得票数 8
2
回答
使用
PyArrow
从HDFS
读取
拼花
文件
hdfs
、
parquet
、
pyarrow
我知道我可以使用
pyarrow
.hdfs.connect()通过
pyarrow
连接到HDFS集群 我也知道我
可以用
pyarrow
.parquet的read_table()
读取
一个拼花
文件
。然而,read_table()接受
文件
路径,而hdfs.connect()给我一个HadoopFileSystem实例。是否可以只使用py箭头(安装了libhdfs3 )来获取驻留在HDFS集群中的拼花
文件
/
文件
夹?我想要得到的是to_py
浏览 7
提问于2017-11-22
得票数 4
回答已采纳
1
回答
将
avro
avdl
文件
共享到多个
模块
hadoop
、
avro
我有一个多
模块
的项目。有一个核心
模块
,它定义了一些通用或通用的东西。我在该核心
模块
中定义了一个avdl
文件
。我想在其他
模块
中定义一些其他avdl
文件
,这些
模块
使用核心
模块
中avdl
文件
定义的类型。
有没有
什么办法
可以用
avro
maven插件做到这一点呢?
浏览 0
提问于2017-12-11
得票数 2
3
回答
在相同环境下使用CLI
读取
DataFrame与可执行
文件
时的不同行为
python
、
pandas
、
pyinstaller
、
parquet
、
pyarrow
columns=[]的全部数据D:\foo\env\lib\site-packages\
pyarrow
\__init__.py如果没有,则只从
文件<
浏览 4
提问于2021-07-22
得票数 10
回答已采纳
2
回答
AWS ModuleNotFoundError:没有名为“
pyarrow
”的
模块
apache-spark
、
pyspark
、
amazon-emr
、
pyarrow
、
apache-arrow
将这些设置为火花-env.shexport PYSPARK_
PYTHON
_DRIVER=
python
3spark.version2.4.3
python
3
python
3aws emr上的错误不会在clouder
浏览 2
提问于2019-08-01
得票数 4
回答已采纳
1
回答
如何将XML转换为
avro
?
python
、
xml
、
avro
有办法从XML直接到
Python
中的
Avro
吗?从
文件
上看,似乎没有一条直接的道路.到目前为止,工作流程在我看来是这样的:
有没有
更好(更直接)的方法?
浏览 5
提问于2015-04-20
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Pandas 2.0 简单介绍和速度评测
Apache Spark 2.4 内置的 Avro 数据源实战
Python自动化测试常用库整理
Spark 2.4重磅发布:优化深度学习框架集成,提供更灵活的流式接收器
Python数据分析-读取外部数据文件
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券