腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(4410)
视频
沙龙
1
回答
avro
和
parquet
格式
的
数据
必须
写入
hadoop
基础
架构
吗
?
file
、
hadoop
、
avro
、
parquet
、
file-format
我一直在研究在一个项目中使用
avro
、
parquet
和
其他
数据
源
的
利弊。如果我从不使用
Hadoop
操作
的
其他人员组接收输入
数据
,他们是否能够以
avro
/
parquet
格式
提供此输入
数据
?到目前为止,我对这些
格式
的
了解只是在
Hadoop
基础
设施
的
范围内,所以我想知道,对于那些只使用Or
浏览 16
提问于2019-06-21
得票数 1
1
回答
Avro
序列化与
Avro
格式
的
区别
hadoop
、
serialization
、
format
、
avro
我正在读一本书
Hadoop
应用程序
架构
(
Hadoop
应用程序
架构
),这本书很古老,但非常有趣。在阅读时,我注意到
Avro
被认为是
数据
序列化框架,而
Parquet
则被认为是列
数据
格式
。我们可以说
Avro
是一种面向行
的
数据
格式
吗
?,
Avro
序列化框架
和
Avro
格式
有什么区别? 提
浏览 0
提问于2020-02-05
得票数 0
回答已采纳
1
回答
Hadoop
自己
的
序列化及其与
AVRO
序列化
的
关系?
hadoop
、
serialization
、
hadoop2
、
avro
我试图理解
Avro
,并逐渐认识到它是
Hadoop
使用
的
数据
序列化框架之一。在学习
Hadoop
的
过程中,我了解到
Hadoop
使用
的
是自己
的
服务器化框架,而不是Java
的
序列化,所以我可以在
Hadoop
中看到Writable、WritableComparable。现在,在浏览了
AVRO
之后,它说
Avro
被用作Serlization框架。 我为此感到有点困惑。所以,当我
浏览 1
提问于2018-04-09
得票数 0
回答已采纳
3
回答
将
Avro
转换为
Parquet
格式
apache-pig
、
sqoop
、
avro
、
parquet
、
apache-crunch
我想从
数据
库中导出
数据
,并转换为
Avro
+
Parquet
格式
。Sqoop支持
Avro
导出,但不支持拼图。我尝试使用Apache Pig,Apache Crunch等将
Avro
对象转换为
Parquet
,但都没有结果。阿帕奇猪给了我“原因: org.apache.
hadoop
.mapreduce.lib.input.InvalidInputException:输入路径不存在”。但是输入路径存在于该位置。Apache Crunch总是抛
浏览 5
提问于2014-05-06
得票数 2
2
回答
什么版本
的
avro
和
地板
格式
支持火花?
apache-spark
、
avro
、
parquet
Spark2.0支持
avro
和
parquet
文件
吗
?什么版本?我下载了spark-
avro
_2.10-0.1.jar并在加载过程中得到了这个错误:Message: org.apache.spark.sql.sources.TableScan
浏览 8
提问于2017-06-07
得票数 0
回答已采纳
1
回答
如何将
数据
hive (从hive表中获得)
写入
hadoop
SequenceFile
和
RCFile?
apache-spark
、
apache-spark-sql
、
spark-dataframe
我能把它写进 直接
和
<dependency> <artifactId>spark-
avro
if ("ORC".equalsIgno
浏览 2
提问于2016-10-03
得票数 6
回答已采纳
1
回答
ClassCastException同时反序列化(加载到蜂窝表中)用
avro
模式支持
的
Parquet
格式
编写
的
小数
hive
、
avro
、
parquet
我试图使用
Avro
Schema(
Avro
Backed)将csv
数据
序列化为
Parquet
格式
&再一次将其读入蜂窝表中。org.apache.
hadoop
.fs.Path;import org.apache.
parquet
.
avro
.AvroWriteSupport; import org.apache
浏览 3
提问于2016-03-02
得票数 1
1
回答
基于文件读写速度,在ORC中,
Parquet
&
AVRO
最适合每一种场景?
hadoop
、
avro
、
parquet
、
orc
多年来,我一直在使用Spark
和
Hadoop
生态系统,但从未问过我
的
架构
师为什么会在向团队
和
开发人员提供任何解释之前选择特定
的
文件
格式
。我现在看到了疏漏问话
的
效果。我有一些关于在stripes中排列
数据
的
ORC文件
格式
的
背景知识,每个条带都有Index data
和
每个列
的
一些元
数据
,包含列级聚合计数
的
file
浏览 6
提问于2022-04-21
得票数 0
1
回答
无效
的
拼花单元模式:重复组数组
hive
、
avro
、
parquet
我们生产
Hadoop
集群上
的
大多数
数据
集目前都以
AVRO
+ SNAPPY
格式
存储。我听说了很多关于
Parquet
的
好东西,我想试一试。我跟随,改变我们
的
一个ETL来生成
Parquet
文件,而不是
Avro
,作为我们减速器
的
输出。我使用
Parquet
+
Avro
模式来生成最终
的
输出
数据
,以及snappy编解码器。一切都很好。目前
浏览 2
提问于2015-03-01
得票数 0
1
回答
火花:
Avro
与
Parquet
的
表演
apache-spark
、
avro
、
parquet
既然Spark2.4已经内置了对
Avro
格式
的
支持,我正在考虑更改我
的
数据
湖中
的
一些
数据
集
的
格式
--那些通常是针对整行而不是特定列聚合而被查询/连接
的
数据
集
的
格式
--从
Parquet
到
Avro
。然而,大部分
数据
上
的
工作都是通过Spark完成
的
,据我所知,Spark<
浏览 0
提问于2018-12-01
得票数 5
回答已采纳
5
回答
Presto支持
的
文件
格式
presto
Presto支持哪些文件
格式
?是否有任何特定
的
文件
格式
推荐更好
的
性能。我很想知道有没有像RCfile这样针对Presto进行优化
的
列式文件
格式
?
浏览 0
提问于2013-11-13
得票数 6
5
回答
谷歌BigQuery支持
Parquet
文件
格式
吗
?
google-bigquery
、
parquet
我知道它目前支持CSV
和
JSON
格式
。
浏览 9
提问于2015-10-27
得票数 9
回答已采纳
1
回答
将BucketingSink与自定义AvroParquetWriter链接起来创建空文件
apache-flink
、
flink-streaming
、
rollingfilesink
接收器
和
写入
器可以正常工作,但当
写入
器将
avro
genericrecord
写入
到拼图时,该文件是从正在进行中创建
的
,等待完成。但是这些文件是0字节
的
空文件。有人能告诉我代码出了什么问题
吗
?在调试代码时,我确认writer.write( element )确实已执行,并且element包含
avro
genericrecord
数据
BucketingSink<DataEventReco
浏览 6
提问于2017-02-17
得票数 3
1
回答
Hadoop
输入
格式
.用法
hadoop
、
avro
我知道
Hadoop
中不同
的
文件
格式
?默认情况下,
hadoop
使用文本输入
格式
。使用文本输入
格式
的
优缺点是什么?与文本输入
格式
相比,
avro
的
优缺点是什么?另外,请帮助我理解不同文件
格式
(
Avro
,Sequence,TextInput,RCFile )
的
用例。
浏览 5
提问于2015-04-22
得票数 0
回答已采纳
1
回答
Kafka & Connect -如何修复
AVRO
Schema
数据
类型
apache-kafka
、
avro
、
apache-kafka-connect
、
s3-kafka-connector
设置问题 我们
的
模式注册表中
的
AVRO
模式不符合标准。例如,源系统中
的
十进制字段在模式注册表中具有基类型字符串
和
逻辑类型十进制。这些类型
的
组合在
AVRO
中是不允许
的
(十进制逻辑类型
必须
始终具有基本类型<e
浏览 6
提问于2021-08-02
得票数 0
回答已采纳
2
回答
火花与
Avro
,Kryo
和
拼花
apache-spark
、
kryo
、
parquet
我正在努力理解
Avro
,Kryo
和
Parquet
在Spark
的
背景下到底做了什么。它们都与序列化相关,但我见过它们一起使用,所以它们不能做同样
的
事情。
Parquet
将自己描述为一种柱状存储
格式
,我有点理解这一点,但是当我保存一个镶嵌文件时,Arvo或Kryo能与它有什么关系
吗
?或者它们只在spark工作期间相关,即。Arvo
和
Kryo有什么不同?当你一起使用它们时会发生什么?
浏览 3
提问于2015-06-14
得票数 8
1
回答
Hadoop
文件
格式
apache-spark
、
hadoop
、
hive
、
avro
、
parquet
我需要考虑如何将
数据
写入
Hadoop
。我每天有大约200 B
的
记录。
数据
字段可能会改变(不是很多,但将来可能会改变),我该选什么?阿夫罗还是帕奎特?但还是不知道该选什么, 有什么建议
吗
?
浏览 1
提问于2018-07-01
得票数 1
回答已采纳
1
回答
在Hive中,
Parquet
和
Avro
文件
格式
的
模式演变意味着什么
hive
有人能解释一下Hive中拼图
和
Avro
文件
格式
的
模式演变
的
含义
吗
?
浏览 17
提问于2019-04-08
得票数 0
1
回答
hadoop
中文件
格式
的
选择
hadoop
、
hive
、
avro
、
parquet
、
orc
各位,处理: --我一直在使用hive中
的
文本
格式
/ JSON进行处理。这是执行ETL (转换)操作
的
暂存表
的
良好
格式
吗
?是否有更好
的
格式
,我应该使用?我知道
Parquet
/ ORC /
AVRO
是专门
的
格式
,但它适
浏览 2
提问于2017-02-23
得票数 0
2
回答
如何在关闭ParquetWriter对象并将其
写入
磁盘之前获取该对象
的
内存大小?
java
、
hadoop
、
avro
、
parquet
我正在从一个流中读取
Avro
消息,并使用
parquet
.
hadoop
.ParquetWriter将它们写出到
Parquet
文件中。我正在尝试使输出文件
的
大小超过阈值限制。根据
Parquet
文档,
数据
以最终
格式
写入
内存对象,这意味着内存中对象
的
大小与磁盘上
的
最终大小相同。我
的
问题是,如何获得内存中
写入
数据
的
大小,以便决定关闭<em
浏览 1
提问于2015-03-06
得票数 3
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
速来围观!这个存储平台既能随机读写又能批量分析
Apache Spark 2.4 内置的 Avro 数据源实战
Impala Schema 设计原则
Spark 2.4 原生支持了avro,别再引用第三方库了
带着目的去阅读——Hadoop权威指南
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
云直播
实时音视频
活动推荐
运营活动
广告
关闭
领券