专栏首页写字母的代码哥hadoop数据类型及自定义

hadoop数据类型及自定义

Hadoop数据类型

hadoop内置数据类型

BooleanWritable:标准布尔型数值
ByteWritable:单字节数值
DoubleWritable:双字节数值
FloatWritable:浮点数
IntWritable:整型数
LongWritable:长整型数
Text:使用UTF8格式存储的文本
NullWritable:当<key, value>中的key或value为空时使用

用户自定义数据类型的实现

1.对于只需要作为“值”出现的数据类型,实现Writable接口即可
2.对于有可能作为“键”出现的数据类型,需要实现WritableComparable接口

##实现Writable接口:

/* DataInput and DataOutput 类是java.io的类 */
public interface Writable {

     void readFields(DataInput in);

     void write(DataOutput out);

}

下面是一个小例子:

public class Point3D implement Writable {

     public float x, y, z;

     public Point3D(float fx, float fy, float fz) {

          this.x = fx;
          this.y = fy;
          this.z = fz;

     }

     public Point3D() {

          this(0.0f, 0.0f, 0.0f);

     }

     public void readFields(DataInput in) throws IOException {
          x = in.readFloat();
          y = in.readFloat();
          z = in.readFloat();
     }
     public void write(DataOutput out) throws IOException {
          out.writeFloat(x);
          out.writeFloat(y);
          out.writeFloat(z);
     }
     public String toString() {
          return Float.toString(x) + ", "
          + Float.toString(y) + ", "
          + Float.toString(z);
     }
}

2、实现WritableComparable接口

public interface WritableComparable<T> {
     public void readFields(DataInput in);
     public void write(DataOutput out);
     public int compareTo(T other);
}

先给出下面的简单例子,再做说明和扩展。

public class Point3D inplements WritableComparable {

     public float x, y, z;
      public Point3D(float fx, float fy, float fz) {

          this.x = fx;
          this.y = fy;
          this.z = fz;

     }

      public Point3D() {

          this(0.0f, 0.0f, 0.0f);

     }

     public void readFields(DataInput in) throws IOException {
          x = in.readFloat();
          y = in.readFloat();
          z = in.readFloat();
     }
     public void write(DataOutput out) throws IOException {
          out.writeFloat(x);
          out.writeFloat(y);
          out.writeFloat(z);
     }

     public String toString() {

          return Float.toString(x) + ", "
          + Float.toString(y) + ", "
          + Float.toString(z);
     }
     public float distanceFromOrigin() {
          return (float) Math.sqrt( x*x + y*y +z*z);
     }
     //影响map输出的排序,默认是升序,return值加一个负号变降序
     public int compareTo(Point3D other) {

          return Float.compareTo(distanceFromOrigin(),other.distanceFromOrigin());

     }

     public boolean equals(Object o) {

          if( !(o instanceof Point3D)) {
              return false;
          }

          Point3D other = (Point3D) o;
          return this.x == o.x && this.y == o.y && this.z == o.z;

     }

     /* 实现 hashCode() 方法很重要
     * Hadoop的Partitioners会用到这个方法,后面再说
     */
     public int hashCode() {
          return Float.floatToIntBits(x)
          ^ Float.floatToIntBits(y)
          ^ Float.floatToIntBits(z);
     }

}

自定义Hadoop数据类型后,需要明确告诉Hadoop来使用它们。这是 JobConf 所能担当的了。

void setOutputKeyClass(Class<T> theClass)
void setOutputValueClass(Class<T> theClass)

通常(默认条件下),这个函数对Map和Reduce阶段的输出都起到作用,当然也有专门的 setMapOutputKeyClass() / setReduceOutputKeyClass() 接口。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • mapreduce的二次排序-分区分组

    就是首先按照第一字段排序,然后再对第一字段相同的行按照第二字段排序,注意不能破坏第一次排序 的结果 。例如

    字母哥博客
  • 特殊数据格式处理-JSON框架Jackson精解第2篇

    Jackson是Spring Boot默认的JSON数据处理框架,但是其并不依赖于任何的Spring 库。有的小伙伴以为Jackson只能在Spring框架内使...

    字母哥博客
  • Java9-Reactive Stream API响应式编程

    Java 9的 Reactive Streams是对异步流式编程的一种实现。它基于异步发布和订阅模型,具有非阻塞“背压”数据处理的特点。

    字母哥博客
  • 设计模式-前端控制器模式

    记得在java里面写过html代码的同学,痛苦大家都知道,想拓展,同样一份代码维护性和继承性可以说真的把java三种特性彻底搞没了,而且,还他xxx难维护。

    逍遥壮士
  • Java面向对象之抽象类,接口

    抽象类: 含有抽象方法的类被声明为抽象类 抽象方法由子类去实现 含有抽象方法的类必须被声明为抽象类 抽象类被子类继承,子类(如果不是抽象类)必须重写抽象类中...

    二十三年蝉
  • 依赖注入容器-- Autofac

    Autofac---Autofac是一款IOC框架,比较于其他的IOC框架,如Spring.NET,Unity,Castle等等所包含的,它很轻量级性能上非常高...

    小世界的野孩子
  • PHP反射类export方法详细解析

    CrazyCodes
  • 通过简单代码示例了解七大软件设计原则

    本文档设计源码地址:https://gitee.com/daijiyong/SoftwareDesignPrinciples

    你好戴先生
  • IoC在ASP.NET Web API中的应用

    控制反转(Inversion of Control,IoC),简单地说,就是应用本身不负责依赖对象的创建和维护,而交给一个外部容器来负责。这样控制权就由应用转移...

    蒋金楠
  • (52) 抽象容器类 / 计算机程序的思维逻辑

    查看历史文章,请点击上方链接关注公众号。 从38节到51节,我们介绍的都是具体的容器类,上节我们提到,所有具体容器类其实都不是从头构建的,它们都继承了一些抽象容...

    swiftma

扫码关注云+社区

领取腾讯云代金券