Avro序列化&反序列化和Spark读取Avro数据

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。

1.简介

本篇文章主要讲如何使用java生成Avro格式数据以及如何通过spark将Avro数据文件转换成DataSet和DataFrame进行操作。

1.1Apache Arvo是什么?

Apache Avro 是一个数据序列化系统,Avro提供Java、Python、C、C++、C#等语言API接口,下面我们通过java的一个实例来说明Avro序列化和反序列化数据。

  • 支持丰富的数据结构
  • 快速可压缩的二进制数据格式
  • 存储持久数据的文件容器
  • 远程过程调用(RPC)
  • 动态语言的简单集成

2.Avro数据生成

2.1定义Schema文件

1.下载avro-tools-1.8.1.jar

| Avro官网:http://avro.apache.org/ Avro版本:1.8.1 下载Avro相关jar包:avro-tools-1.8.1.jar 该jar包主要用户将定义好的schema文件生成对应的java文件 |

|:----|

2.定义一个schema文件,命名为CustomerAdress.avsc

| { "namespace":"com.peach.arvo", "type": "record", "name": "CustomerAddress", "fields": {"name":"ca_address_sk","type":"long"}, {"name":"ca_address_id","type":"string"}, {"name":"ca_street_number","type":"string"}, {"name":"ca_street_name","type":"string"}, {"name":"ca_street_type","type":"string"}, {"name":"ca_suite_number","type":"string"}, {"name":"ca_city","type":"string"}, {"name":"ca_county","type":"string"}, {"name":"ca_state","type":"string"}, {"name":"ca_zip","type":"string"}, {"name":"ca_country","type":"string"}, {"name":"ca_gmt_offset","type":"double"}, {"name":"ca_location_type","type":"string"} } |

|:----|

Schema说明:

  • namespace:在生成java文件时import包路径
  • type:omplex types(record, enum,array, map, union, and fixed)
  • name:生成java文件时的类名
  • fileds:schema中定义的字段及类型

3.生成java代码文件

使用第1步下载的avro-tools-1.8.1.jar包,生成java code

| java -jar avro-tools-1.8.1.jar compile schema CustomerAddress.avsc . |

|:----|

末尾的"."代表java code 生成在当前目录,命令执行成功后显示:

2.2使用Java生成Avro文件

1.使用Maven创建java工程

在pom.xml文件中添加如下依赖

| <dependency> <groupId>org.apache.avro</groupId> <artifactId>avro</artifactId> <version>1.8.1</version> </dependency> |

|:----|

2.新建java类GenerateDataApp,代码如下

动态生成avro文件,通过将数据封装为GenericRecord对象,动态的写入avro文件,以下代码片段:

3. Spark读Avro文件

1.使用Maven创建一个scala工程

在pom.xml文件中增加如下依赖

2.Scala事例代码片段

3.Spark运行结果

源码地址:

https://github.com/javaxsky/avrotospark

醉酒鞭名马,少年多浮夸! 岭南浣溪沙,呕吐酒肆下!挚友不肯放,数据玩的花!

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。

原文发布于微信公众号 - Hadoop实操(gh_c4c535955d0f)

原文发表时间:2017-09-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏乐百川的学习频道

Spring学习笔记 Spring Roo 简介

一直以来,Java/Spring开发被认为是笨重的代表,无法快速生成项目原型和骨架。所以,Spring推出了Spring Roo这个项目,帮助我们快速生成项目原...

30270
来自专栏大魏分享(微信公众号:david-share)

重点来了:事务一致性的深入研究&EJB的全生命周期 | 从开发角度看应用架构5

14640
来自专栏王清培的专栏

spring rest 容易被忽视的后端服务 chunked 性能问题

spring boot 容易被忽视的后端服务 chunked 性能问题 标签(空格分隔): springboot springmvc chunked 背景 sp...

54380
来自专栏架构师之旅

Spring框架知识总结-注入Bean的各类异常

近日整合sping和hibernate框架时遇到了一系列的异常,本次主要说明一下spring框架可能出现的异常及解决方案。 我们借助sping强...

21680
来自专栏JackieZheng

Spring集成RabbitMQ-使用RabbitMQ更方便

如果提到Spring,你脑海中对他的印象还停留在SSH三大框架之一,那或许你该好好重新认识这个家伙。 在IT技术日新月异的今天,他还能让你忘不了并与他朝夕相处,...

21290
来自专栏编程坑太多

springboot (二) thymeleaf

15930
来自专栏一名合格java开发的自我修养

kafka主题offset各种需求修改方法

  简要:开发中,常常因为需要我们要认为修改消费者实例对kafka某个主题消费的偏移量。具体如何修改?为什么可行?其实很容易,有时候只要我们换一种方式思考,如果...

36910
来自专栏菩提树下的杨过

maven学习(上)- 基本入门用法

一、下载及安装 1.1 下载maven 3.1.1 先到官网http://maven.apache.org/download.cgi 下载最新版本(目前是3.1...

22080
来自专栏大数据和云计算技术

Yarn【label-based scheduling】实战总结(二)

洋哥实践大作。 1.1 Label-based scheduling实战问题汇总 1.1.1 ClassNotFoundException 问题现象,执行yar...

44870
来自专栏程序猿DD

Swagger Starter 1.4.0发布:新增swagger功能开源与全局参数的配置。

该项目主要利用Spring Boot的自动化配置特性来实现快速的将swagger2引入spring boot应用来生成API文档,简化原生使用swagger2的...

39760

扫码关注云+社区

领取腾讯云代金券