Hadoop Avro支持多输入AvroMultipleInputs

Avro 提供了1.x版本的AvroMultipleInputs,但是不支持2.x API版本,因此修改对应代码,增加对hadoop 2.x API版本的的支持

代码放在https://github.com/jadepeng/AvroMultipleInputs/

使用方法和MultipleInputs类似,指定inputpath,key和value的SCHEMA,以及处理用的Mapper类即可

AvroMultipleInputs.addInputPath(job, new Path(inputPath),Schema.create(Schema.Type.STRING), 
						SingerItem.SCHEMA$, SingerItemMapper.class);

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏史上最简单的Spring Cloud教程

SpringBoot非官方教程 | 第七篇:springboot开启声明式事务

springboot开启事务很简单,只需要一个注解@Transactional 就可以了。因为在springboot中已经默认对jpa、jdbc、mybatis...

2417
来自专栏沃趣科技

MySQL复制应用中继日志解析

一、从一张图开始 从一个大神那边得到一张图片,SQL线程应用中继日志流程,下面就实验验证一下:(PS,我个人认为这张图binlog_format为ROW格式是正...

4686
来自专栏醉生梦死

MySQL数据导出工具 mysqldump 原

2102
来自专栏深度学习之tensorflow实战篇

hive模糊搜索表

1.hive模糊搜索表 show tables like '*name*'; 2.查看表结构信息 desc formatted table_name; des...

5949
来自专栏小白安全

过安全狗waf注入技巧

 过安全狗waf注入 前提web页面存在注入漏洞 测试开始本地搭建环境 环境   安全狗(APACE版)V4.0 防护规则全开 ...

3225
来自专栏搜云库

Mycat 读写分离 数据库分库分表 中间件 安装部署,及简单使用

MyCat是一个开源的分布式数据库系统,是一个实现了MySQL协议的服务器,前端用户可以把它看作是一个数据库代理,用MySQL客户端工具和命令行访问,而其后端可...

5618
来自专栏蓝天

对于glog中ShutdownGoogleLogging后不能再次InitGoogleLogging问题的解决办法

https://code.google.com/p/google-glog/issues/detail?id=142

1772
来自专栏乐沙弥的世界

使用mysqldump导出数据库

    mysqldump是mysql用于转存储数据库的客户端程序。它主要产生一系列的SQL语句,可以封装到文件,该文件包含有所有重建您的数据库所需要的SQL命...

2082
来自专栏zcqshine's blog

PHP mysqli_multi_query 连续执行的坑

3866
来自专栏乐沙弥的世界

MySQL 通用查询日志(General Query Log)

    同大多数关系型数据库一样,日志文件是MySQL数据库的重要组成部分。MySQL有几种不同的日志文件,通常包括错误日志文件,二进制日志,通用日志,慢查询日...

5473

扫码关注云+社区

领取腾讯云代金券