前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大数据-[案例]Reduce端实现JOIN

大数据-[案例]Reduce端实现JOIN

作者头像
cwl_java
发布2019-12-26 15:52:34
3040
发布2019-12-26 15:52:34
举报
文章被收录于专栏:cwl_Java

7. [案例] Reduce 端实现 JOIN

7.1. 需求

假如数据量巨大,两表的数据是以文件的形式存储在 HDFS 中, 需要用 MapReduce 程 序来实现以下 SQL 查询运算

代码语言:javascript
复制
select a.id,a.date,b.name,b.category_id,b.price from t_order a left join t_product b on a.pid = b.id

订单数据表

在这里插入图片描述
在这里插入图片描述

商品信息表

在这里插入图片描述
在这里插入图片描述

实现机制 通过将关联的条件作为map输出的key,将两表满足join条件的数据并携带数据所来源的文 件信息,发往同一个reduce task,在reduce中进行数据的串联

7.2. Step 1: 定义 Mapper

在这里插入图片描述
在这里插入图片描述

7.3. Step 2: 定义 Reducer

在这里插入图片描述
在这里插入图片描述

7.5. Step 4: Main 方法

代码语言:javascript
复制
public class JobMain extends Configured implements Tool {
    @Override
    public int run(String[] strings) throws Exception {
        //创建一个任务对象
        Job job = Job.getInstance(super.getConf(), "mapreduce_reduce_join");
        //打包放在集群运行时,需要做一个配置
        job.setJarByClass(JobMain.class);
        //第一步:设置读取文件的类: K1 和V1
        job.setInputFormatClass(TextInputFormat.class);
        TextInputFormat.addInputPath(job, new Path("hdfs://node01:8020/input/reduce_join"));
        //第二步:设置Mapper类
        job.setMapperClass(ReduceJoinMapper.class);
        //设置Map阶段的输出类型: k2 和V2的类型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(Text.class);
        //第三,四,五,六步采用默认方式(分区,排序,规约,分组)
        // 第七步 :设置文的Reducer类
        job.setReducerClass(ReduceJoinReducer.class);
        //设置Reduce阶段的输出类型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(Text.class);
        //第八步:设置输出类
        job.setOutputFormatClass(TextOutputFormat.class);
        //设置输出的路径
        TextOutputFormat.setOutputPath(job, new Path("hdfs://node01:8020/out/reduce_join_out"));
        boolean b = job.waitForCompletion(true);
        return b ? 0 : 1;
    }

    public static void main(String[] args) throws Exception {
        Configuration configuration = new Configuration();
        //启动一个任务
        int run = ToolRunner.run(configuration, new JobMain(), args);
        System.exit(run);
    }
}
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 7. [案例] Reduce 端实现 JOIN
    • 7.1. 需求
      • 7.2. Step 1: 定义 Mapper
      • 7.3. Step 2: 定义 Reducer
      • 7.5. Step 4: Main 方法
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档