avro和parquet格式的数据必须写入hadoop基础架构吗？

file、hadoop、avro、parquet、file-format

我一直在研究在一个项目中使用avro、parquet和其他数据源的利弊。如果我从不使用Hadoop操作的其他人员组接收输入数据，他们是否能够以avro/parquet格式提供此输入数据？到目前为止，我对这些格式的了解只是在Hadoop基础设施的范围内，所以我想知道，对于那些只使用Or

浏览 16提问于2019-06-21得票数 1

1回答

Avro序列化与Avro格式的区别

hadoop、serialization、format、avro

我正在读一本书Hadoop应用程序架构(Hadoop应用程序架构)，这本书很古老，但非常有趣。在阅读时，我注意到Avro被认为是数据序列化框架，而Parquet则被认为是列数据格式。我们可以说Avro是一种面向行的数据格式吗？，Avro序列化框架和Avro格式有什么区别? 提

浏览 0提问于2020-02-05得票数 0

回答已采纳

1回答

Hadoop自己的序列化及其与AVRO序列化的关系？

hadoop、serialization、hadoop2、avro

我试图理解Avro，并逐渐认识到它是Hadoop使用的数据序列化框架之一。在学习Hadoop的过程中，我了解到Hadoop使用的是自己的服务器化框架，而不是Java的序列化，所以我可以在Hadoop中看到Writable、WritableComparable。现在，在浏览了AVRO之后，它说Avro被用作Serlization框架。我为此感到有点困惑。所以，当我

浏览 1提问于2018-04-09得票数 0

回答已采纳

3回答

将Avro转换为Parquet格式

apache-pig、sqoop、avro、parquet、apache-crunch

我想从数据库中导出数据，并转换为Avro + Parquet格式。Sqoop支持Avro导出，但不支持拼图。我尝试使用Apache Pig，Apache Crunch等将Avro对象转换为Parquet，但都没有结果。阿帕奇猪给了我“原因: org.apache.hadoop.mapreduce.lib.input.InvalidInputException:输入路径不存在”。但是输入路径存在于该位置。Apache Crunch总是抛

浏览 5提问于2014-05-06得票数 2

2回答

什么版本的avro和地板格式支持火花？

apache-spark、avro、parquet

Spark2.0支持avro和parquet文件吗？什么版本？我下载了spark-avro_2.10-0.1.jar并在加载过程中得到了这个错误：Message: org.apache.spark.sql.sources.TableScan

浏览 8提问于2017-06-07得票数 0

回答已采纳

1回答

如何将数据hive (从hive表中获得)写入hadoop SequenceFile和RCFile？

apache-spark、apache-spark-sql、spark-dataframe

我能把它写进直接和 <dependency> <artifactId>spark-avroif ("ORC".equalsIgno

浏览 2提问于2016-10-03得票数 6

回答已采纳

1回答

ClassCastException同时反序列化(加载到蜂窝表中)用avro模式支持的Parquet格式编写的小数

hive、avro、parquet

我试图使用Avro Schema(Avro Backed)将csv数据序列化为Parquet格式&再一次将其读入蜂窝表中。org.apache.hadoop.fs.Path;import org.apache.parquet.avro.AvroWriteSupport; import org.apache

浏览 3提问于2016-03-02得票数 1

1回答

基于文件读写速度，在ORC中，Parquet & AVRO最适合每一种场景？

hadoop、avro、parquet、orc

多年来，我一直在使用Spark和Hadoop生态系统，但从未问过我的架构师为什么会在向团队和开发人员提供任何解释之前选择特定的文件格式。我现在看到了疏漏问话的效果。我有一些关于在stripes中排列数据的ORC文件格式的背景知识，每个条带都有Index data和每个列的一些元数据，包含列级聚合计数的file

浏览 6提问于2022-04-21得票数 0

1回答

无效的拼花单元模式:重复组数组

hive、avro、parquet

我们生产Hadoop集群上的大多数数据集目前都以AVRO + SNAPPY格式存储。我听说了很多关于Parquet的好东西，我想试一试。我跟随，改变我们的一个ETL来生成Parquet文件，而不是Avro，作为我们减速器的输出。我使用Parquet + Avro模式来生成最终的输出数据，以及snappy编解码器。一切都很好。目前

浏览 2提问于2015-03-01得票数 0

1回答

火花: Avro与Parquet的表演

apache-spark、avro、parquet

既然Spark2.4已经内置了对Avro格式的支持，我正在考虑更改我的数据湖中的一些数据集的格式--那些通常是针对整行而不是特定列聚合而被查询/连接的数据集的格式--从Parquet到Avro。然而，大部分数据上的工作都是通过Spark完成的，据我所知，Spark<

浏览 0提问于2018-12-01得票数 5

回答已采纳

5回答

Presto支持的文件格式

presto

Presto支持哪些文件格式？是否有任何特定的文件格式推荐更好的性能。我很想知道有没有像RCfile这样针对Presto进行优化的列式文件格式？

浏览 0提问于2013-11-13得票数 6

5回答

谷歌BigQuery支持Parquet文件格式吗？

google-bigquery、parquet

我知道它目前支持CSV和JSON格式。

浏览 9提问于2015-10-27得票数 9

回答已采纳

1回答

将BucketingSink与自定义AvroParquetWriter链接起来创建空文件

apache-flink、flink-streaming、rollingfilesink

接收器和写入器可以正常工作，但当写入器将avro genericrecord写入到拼图时，该文件是从正在进行中创建的，等待完成。但是这些文件是0字节的空文件。有人能告诉我代码出了什么问题吗？在调试代码时，我确认writer.write( element )确实已执行，并且element包含avro genericrecord数据BucketingSink<DataEventReco

浏览 6提问于2017-02-17得票数 3

1回答

Hadoop输入格式.用法

hadoop、avro

我知道Hadoop中不同的文件格式？默认情况下，hadoop使用文本输入格式。使用文本输入格式的优缺点是什么？与文本输入格式相比，avro的优缺点是什么？另外，请帮助我理解不同文件格式(Avro，Sequence，TextInput，RCFile )的用例。

浏览 5提问于2015-04-22得票数 0

回答已采纳

1回答

Kafka & Connect -如何修复AVRO Schema数据类型

apache-kafka、avro、apache-kafka-connect、s3-kafka-connector

设置问题我们的模式注册表中的AVRO模式不符合标准。例如，源系统中的十进制字段在模式注册表中具有基类型字符串和逻辑类型十进制。这些类型的组合在AVRO中是不允许的(十进制逻辑类型必须始终具有基本类型<e

浏览 6提问于2021-08-02得票数 0

回答已采纳

2回答

火花与Avro，Kryo和拼花

apache-spark、kryo、parquet

我正在努力理解Avro，Kryo和Parquet在Spark的背景下到底做了什么。它们都与序列化相关，但我见过它们一起使用，所以它们不能做同样的事情。Parquet将自己描述为一种柱状存储格式，我有点理解这一点，但是当我保存一个镶嵌文件时，Arvo或Kryo能与它有什么关系吗？或者它们只在spark工作期间相关，即。Arvo和Kryo有什么不同?当你一起使用它们时会发生什么？

浏览 3提问于2015-06-14得票数 8

1回答

Hadoop文件格式

apache-spark、hadoop、hive、avro、parquet

我需要考虑如何将数据写入Hadoop。我每天有大约200 B的记录。数据字段可能会改变(不是很多，但将来可能会改变)，我该选什么？阿夫罗还是帕奎特？但还是不知道该选什么，有什么建议吗？

浏览 1提问于2018-07-01得票数 1

回答已采纳

1回答

在Hive中，Parquet和Avro文件格式的模式演变意味着什么

hive

有人能解释一下Hive中拼图和Avro文件格式的模式演变的含义吗？

浏览 17提问于2019-04-08得票数 0

1回答

hadoop中文件格式的选择

hadoop、hive、avro、parquet、orc

各位，处理: --我一直在使用hive中的文本格式/ JSON进行处理。这是执行ETL (转换)操作的暂存表的良好格式吗？是否有更好的格式，我应该使用？我知道Parquet / ORC / AVRO是专门的格式，但它适

浏览 2提问于2017-02-23得票数 0

2回答

如何在关闭ParquetWriter对象并将其写入磁盘之前获取该对象的内存大小？

java、hadoop、avro、parquet

我正在从一个流中读取Avro消息，并使用parquet.hadoop.ParquetWriter将它们写出到Parquet文件中。我正在尝试使输出文件的大小超过阈值限制。根据Parquet文档，数据以最终格式写入内存对象，这意味着内存中对象的大小与磁盘上的最终大小相同。我的问题是，如何获得内存中写入数据的大小，以便决定关闭<em

浏览 1提问于2015-03-06得票数 3

点击加载更多