问:将Avro转换为内存中的拼图

文章/答案/技术大牛

发布

2回答

、、、

我正在接收卡夫卡的Avro唱片。我想把这些记录转换成拼图文件。writer = new AvroParquetWriter<>(path, avroSchema, compressionCodecName, blockSize, pageSize); 现在，这将执行Avro到Parquet的转换，但它会将Parquet文件写入磁盘。我想知道是否有一种更简单的方法将文件保存在内存中，这样我就不必管理磁盘上的

浏览 25提问于2016-09-22得票数 3

3回答

将Avro转换为Parquet格式

、、、、

我想从数据库中导出数据，并转换为Avro + Parquet格式。Sqoop支持Avro导出，但不支持拼图。我尝试使用Apache Pig，Apache Crunch等将Avro对象转换为Parquet，但都没有结果。Apache Crunch总是抛出:java.lang.ClassNotFoundException: Class Hadoop not found“，尽管我将它添加到了Hadoop lib路径中。什么是从DB导出数据到拼图</e

浏览 5提问于2014-05-06得票数 2

1回答

将镶木地板转换为Avro

、

我看到了许多关于如何将Avro文件转换为Parquet的示例，其中Parquet在其元数据中保留了Avro模式。然而，我很困惑是否有一些简单的方法来做相反的事情--将拼图转换为Avro。有这样的例子吗？

浏览 0提问于2016-04-01得票数 2

2回答

使用Java将Json对象转换为Parquet格式，而无需转换为AVRO(无需使用Spark、Hive、Pig、Impala)

、、、

我有一个使用Java将以Json对象形式出现的消息转换为Apache Parquet格式的场景。任何示例代码或示例都会很有帮助。据我所知，无论是蜂巢，猪，火花都被用来将消息转换为拼花。

浏览 2提问于2016-10-05得票数 19

回答已采纳

2回答

如何在关闭ParquetWriter对象并将其写入磁盘之前获取该对象的内存大小？

、、、

我正在从一个流中读取Avro消息，并使用parquet.hadoop.ParquetWriter将它们写出到Parquet文件中。我正在尝试使输出文件的大小超过阈值限制。问题是，ParquetWriter将所有内容都保存在内存中，只有在writer关闭时才会将其写出到磁盘。根据Parquet文档，数据以最终格式写入内存对象，这意味着内存中对象的大小与磁盘上的最终大小相同。我

浏览 1提问于2015-03-06得票数 3

1回答

Python :使用pandavro生成avro架构无效的datatype64[ns]

、、

我想从mysql表中生成一个avro文件。我目前使用的是pandavro。但是pandavro还不支持datetime数据类型。我该如何解决这个问题？不使用pandavro是可以的。

浏览 2提问于2019-01-02得票数 1

1回答

Avro in-memory，以拼花为存储

、、

我是第一次接触拼花，并试图理解使用拼花带来的各种复杂之处。经常弹出的一点是，镶嵌作为存储格式应该与Avro一起使用作为内存中的表示。不幸的是，我不明白Avro怎么能用在拼图上。

浏览 1提问于2015-09-26得票数 0

2回答

在Spark中将数据转换为拼图

、、、

我在S3中有一些遗留数据，我想使用Java使用Spark2将它们转换为parquet格式。我拥有所需的Avro schema (.avsc文件)及其使用Avro编译器生成的Java类，我希望使用这些模式以Parquet格式存储数据。输入数据不是任何标准格式，但我有一个库，可以将遗留文件中的每一行转换为Avro类。是否可以将数据作为JavaRDD<String>读取，然

浏览 0提问于2017-01-18得票数 0

2回答

火花与Avro，Kryo和拼花

、、

我正在努力理解Avro，Kryo和Parquet在Spark的背景下到底做了什么。它们都与序列化相关，但我见过它们一起使用，所以它们不能做同样的事情。

浏览 3提问于2015-06-14得票数 8

1回答

如何使用Sqoop将数据保存为parquet avro文件格式？

、、、

我需要将数据从关系数据库移动到HDFS，但我希望将数据保存为文件格式。看一下，我的选项似乎是--as-parquetfile或--as-avrodatafile，但不是两者的混合。根据我对下面这个/picture的理解，parquet-avro的工作方式是，它是一个嵌入了avro模式的镶嵌文件，以及一个转换和保存avro对象到镶嵌文件的转换器，反之亦然。我最初的假设是，如果我使用sqoop

浏览 21提问于2017-03-14得票数 0

1回答

parquet、avro和其他hadoop文件格式的第一行可以有不同的布局吗？

、、、、

为什么我必须将RDD转换为DF，才能将其写成拼接、avro或其他类型？我知道以这些格式编写RDD是不受支持的。我实际上是想写一个拼图文件，第一行只包含标题日期，其他行包含详细记录。我已经有了一个包含上述内容的csv文件sample.csv。当作为数据帧读取时，csv文件只包含第一个字段，因为第一行只有一列。sc.textFile('hdfs://somepath/sample.csv')df.show() o/p

浏览 0提问于2019-04-06得票数 0

1回答

将Avro* in Kafka转换为Parquet直接转换为S3*

、、、

我在Kafka中有主题是以Avro格式存储的。我想消费整个主题(在收到时不会更改任何消息)，并将其转换为Parquet，直接保存在S3上。我目前是这样做的，但它要求我一次使用一个来自Kafka的消息，并在本地机器上进行处理，将它们转换为拼图文件，一旦使用完整个主题并完全写入拼图文件，就关闭编写过程，然后启动一个S3多部分文件上传。或者简称为| Avro in Kafka -> convert to parquet on loca

浏览 24提问于2019-06-13得票数 3

2回答

Amazon Redshift可以卸载为Parquet或Avro格式吗？

、、

在从redshift卸载任何数据时，通常会指定分隔符和压缩以及所需的参数 UNLOAD ('SELECT * from <schema>.GZIP iam_role 'arn:aws:iam::xxxxxxxxxxxxxxxxxx' redshift是否支持不同文件格式的卸载，如Parquet或avro？redshift会为卸载添加对文件格式的支持吗？

浏览 1提问于2019-11-27得票数 1

1回答

在SparkSQL中使用Avro模式和Parquet格式进行读写

、、、

我正在尝试从SparkSQL中写入和读取镶木面板文件。出于模式演变的原因，我希望在写入和读取时使用Avro模式。但是，我想使用SparkSQL的write()和read()方法(它们与DataFrameWriter和DataFrameReader一起工作)，它们与SparkSQL很好地集成在一起(我将编写和读取Dataset换句话说，似乎没有办法通过Avro模式使用SparkSQL应用编程接口来读/写拼图文件。但也许我只是错过了什么？为了澄清，我也理解，这将基

浏览 1提问于2017-01-04得票数 5

1回答

使用Parquet文件格式为方案数据创建配置单元(0.10)表

、、、、

我有一个3级嵌套的java类形式的数据。我成功地使用avro Tools ReflectData创建了Avro schema，并使用ReflectDatumWriter将数据写出avro文件。在Hive中，我能够创建一个表，并使用 ('avro.schema.url'='hdfs:///schema.avsc'); 我可以看到有一些方法可以将相同<e

浏览 1提问于2014-10-15得票数 0

1回答

具有Snappy压缩功能的Parquet格式的红移复制命令

、、、、

我有HDFS格式的数据集，它是以snappy作为压缩编解码器的拼接格式。据我所知，目前Redshift只接受纯文本，json，avro格式的gzip，lzo压缩编解码器。或者，我将拼图格式转换为纯文本，并使用Pig脚本将snappy编解码器更改为gzip。目前有没有一种方法可以直接将数据从地块文件加载到Redshift？

浏览 2提问于2016-03-10得票数 5

回答已采纳

2回答

Hadoop之上的流媒体框架，支持ORC、parquet文件格式

、、、

Hadoop streaming是否支持新的柱状存储格式，如ORC和parquet，或者在Hadoop之上是否有允许您读取此类格式的框架？

浏览 0提问于2014-04-04得票数 5

1回答

有没有另一种/类似的方法来解决数据库的sparks.read.format.load问题？

、、、

我正在尝试将avro文件加载到sparks数据帧中，这样我就可以将其转换为pandas，并最终转换为字典。我想使用的方法是：(注意:我试图加载到dataframe中的avro文件数据已经在内存中，作为来自python请求的

浏览 0提问于2019-06-07得票数 1

2回答

如何在avro模式中指定时间戳

、、

我正在尝试将这个值1520200800049转换为Avro。这是我的模式中字段的规范，顺便说一下，这是一个union模式： "name" : "TimestampField" "type":"long","logicalType":"timestamp-millis&q

浏览 0提问于2018-06-04得票数 0

1回答

Azure解决方案，用于将流保存到blob文件中，作为块

、、

--我正试图找到几种使用azure服务来执行的方法：我读到事件中心捕获只将文件保存为AVRO。因此，我还可以考虑从原始的AVRO BLOB复制到目标地板BLOB的第二个管道。在AZURE

浏览 5提问于2020-02-05得票数 3

点击加载更多