Mapreduce程序中reduce的Iterable参数迭代出是同一个对象

今天在对reduce的参数Iterable进行迭代时,发现一个问题,即Iterator的next()方法每次返回的是同一个对象,next()只是修改了Writable对象的值,而不是重新返回一个新的Writable对象。

使用wordcount来验证:

我的代码如下:

protected void reduce(Text key, Iterable<IntWritable> values,
        Reducer<Text, IntWritable, Text, IntWritable>.Context context)
        throws IOException, InterruptedException {
    int sum = 0;

    // 保存每个IntWritable到list
    List<IntWritable> intWritables = new ArrayList<IntWritable>();

    for (IntWritable val : values) {
        intWritables.add(val);
        sum += val.get();
    }

    if(intWritables.size() > 1) {
        // 当list size大于1时,验证第一个元素和第二个元素是否是同一个对象
        System.out.println("objects is same -> "
                + (intWritables.get(0) == intWritables.get(1)));
    }

    result.set(sum);
    context.write(key, result);
}

日志输出:

objects is same -> true

这个Iterable的实现是org.apache.hadoop.mapreduce.task.ReduceContextImpl.ValueIterable

Iterator实现是org.apache.hadoop.mapreduce.task.ReduceContextImpl.ValueIterator

其中next()实现时,调用的是org.apache.hadoop.io.serializer.WritableSerialization的deserialize(Writable w)方法,

Writable deserialize(Writable w) IOException {
  Writable writable;
  (w == ) {
    writable 
      = (Writable) ReflectionUtils.(, getConf());
  } {
    writable = w;
  }
  writable.readFields();
  writable;
}

该方法只是调用了入参w的readFields方法,并没有创建新对象,除非w是null

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏java小白

MySQL WHERE子句内使用正则表达式搜索

18550
来自专栏Python

SQLAlchemy中的自引用

SQLALCHEMY采用adjacency list pattern来表示类的自引用。 例如,对于类Node自引用: class Node(Base): ...

40450
来自专栏along的开发之旅

C#中的正则表达式表达'.'和'\'

如果要表达字符串中的'.',在正则表达式中表达为"\.",因为'.'在正则表达式中是元字符,需要'\'进行转义,那么在C#中就是"\\.",第一个'\'是C#用...

9710
来自专栏猿人谷

Mysql字符串截取总结:left()、right()、substring()、substring_index()

在实际的项目开发中有时会有对数据库某字段截取部分的需求,这种场景有时直接通过数据库操作来实现比通过代码实现要更方便快捷些,mysql有很多字符串函数可以用来处...

34900
来自专栏黑白安全

Mysql索引类型Btree和Hash的区别以及使用场景

遇到单表数据量大的时候很多开发者都会想到给相对的字段建立索引来提高性能(mysql索引的使用),但很少会去关注索引的类型该如何选择,在mysql中支持有两种类型...

26530
来自专栏Java成神之路

PL/SQL学习笔记_01_基础:变量、流程控制

PL/SQL语句可以在Oracle客户端的 SQL窗口或者 command  窗口中运行

10820
来自专栏xiaoxi666的专栏

Mybatis foreach标签含义

这种方式非常方便,我们只要把查询条件写出来,剩下的操作都由mysql来处理。而在实际场景中,为了减少底层耦合,我们一般不通过mysql中的子查询方式联表查询,而...

22110
来自专栏iOS 开发杂谈

浅谈 Objective-C Associated Objects

Associated Objects 是 Objective-C 2.0 中 Runtime 的特性之一。 在 <objc/runtime.h> 中定义的三个...

12030
来自专栏技术碎碎念

sql server 使用函数辅助查询

函数是所有语言系统下都具备的内部数据处理过程,SQL SERVER也同样内置了许多函数。在SQL SERVER中,函数是由一个或多个T-SQL语句组成的子程序。...

35140
来自专栏十月梦想

mysql数据类型

mysql数据的数据类型,指定了字段的类型,不符合指定的字段类型,传入的值则会提示错误;

9440

扫码关注云+社区

领取腾讯云代金券