如何在Hadoop中使用自定义类型

在Hadoop中使用自定义类型，您需要遵循以下步骤：

创建自定义类型类：创建一个类来表示您的自定义类型。该类必须实现Writable接口，并实现write和readFields方法来序列化和反序列化对象。

import org.apache.hadoop.io.Writable;

public class CustomType implements Writable {
    // 实现write方法以将对象序列化为字节流
    public void write(DataOutput out) throws IOException {
        // 将对象的字段写入输出流
        out.writeInt(field1);
        out.writeDouble(field2);
        // ...
    }

    // 实现readFields方法以从字节流中反序列化对象
    public void readFields(DataInput in) throws IOException {
        // 从输入流中读取字段并设置对象的值
        field1 = in.readInt();
        field2 = in.readDouble();
        // ...
    }
}

在上述示例中，我们创建了一个名为CustomType的自定义类型类，并实现了Writable接口的write和readFields方法。

在MapReduce作业中使用自定义类型：在您的MapReduce作业中，可以使用自定义类型作为键或值类型。

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class MyMapper extends Mapper<LongWritable, Text, CustomType, Text> {
    private CustomType customKey = new CustomType();
    private Text outputValue = new Text();

    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        // 设置自定义类型对象的值
        customKey.setField1(123);
        customKey.setField2(3.14);
        // ...

        // 发出键值对
        context.write(customKey, outputValue);
    }
}

在上述示例中，我们在Mapper类中使用了自定义类型CustomType作为键类型，并将其与Text类型作为值类型一起使用。

在Hadoop配置中指定自定义类型：在Hadoop配置中，您需要指定自定义类型的序列化类。

Configuration conf = new Configuration();
conf.set("io.serializations", "org.apache.hadoop.io.serializer.WritableSerialization,com.example.CustomType");

在上述示例中，我们将CustomType添加到io.serializations配置属性中，以便Hadoop能够正确地序列化和反序列化自定义类型。

如何使用hadoop自定义数据类型作为配置单元表的列数据类型

、

我想使用用hadoop编写的自定义可写数据类型作为配置单元中某些表的列数据类型。是否知道如何在配置单元中注册hadoop的自定义数据类型，以便可以将其用作列数据类型。

浏览 1提问于2014-09-30得票数 1

1回答

Hadoop中的内部存储

、、、

我是Hadoop的新手，有一个关于Hadoop内部存储的问题。据我所知，HDFS中的所有内容都以键/值对的形式存储。现在，在Yarn的帮助下，出现了不同的技术来导入不同类型的数据，如流和来自RDMBSs的数据(使用Sqoop)。这些类型的数据是如何在HDFS内部存储的？例如，关系表中的行是否以某种方式转换为键/值对？即使使用Hive和Hcatalog，您也可以创建表并向其中加载数据。所有这些都是如

浏览 0提问于2015-07-10得票数 0

1回答

如何在Hadoop中对自定义可写类型进行排序

、、、、

我有一个自定义类型，它包含Hadoop本机类型的字段(例如Text和IntWritable)，并且需要在洗牌/排序阶段使用它作为键和排序。有类似的问题，如和，但它们都是关于使用本机类型的。如何实现与自定义类型相同的结果，需要满足哪些要求？

浏览 0提问于2019-03-13得票数 0

回答已采纳

1回答

有没有什么Bigdata工具可以处理pdf文档？

、、、

现在我正在使用pdfBox & java API来提取我的pdf文档，但是有没有bigdata工具可以做同样的提取呢？

浏览 0提问于2013-08-27得票数 1

1回答

适用于大数据的Talend hadoop 2.2.0

、

我使用的是Apache Hadoop 2.2.0 64位平台。我在Talend for Big Data 5.6 Studio中找不到此Hadoop版本的连接性。有没有人可以指导我如何连接apache hadoop 2.2.0？

浏览 0提问于2015-05-01得票数 0

1回答

是什么原因导致Hadoop跳过排序步骤？

、、

我试图使用Hadoop来格式化和排序一个非常大的数据集，但它似乎跳过了排序步骤。映射程序将Avro输入文件转换为JSON中一些有趣的字段。collector.collect(new Text(key), new Text(value));} 约简假定每个键的值都是按字典顺序排列的(适合于org.apache.hadoop.io.Text显然，Hadoop是按键值对Text记录进行分组，但它没有对它们进行排序。当我使用 (在这个项目中不是一个选项)时，文本行会自动排序--排序可以配置，但是默认

浏览 2提问于2013-10-29得票数 1

回答已采纳

1回答

EMR ClassNotFoundException java中的Spark提交

、、

我在一个spring引导应用程序中创建了jar绑定，在这个应用程序中，我创建了火花会话来执行一些操作。/lib/hadoop-mapreduce-client-common-2.6.5.jarBOOT-INF/lib/

浏览 0提问于2019-04-18得票数 2

1回答

将值从Mapper传递给Reducer

、、

此外，我也不想使用DistributedCahce，对自己施加更多的限制。那么，我还有其他选择吗？更确切地说，我的问题有两个 D1和D2的值可以在配置文件中读取，并根据map.input.file的值来

浏览 0提问于2012-01-21得票数 2

1回答

自定义Hadoop类型的ArrayWritable实现

、

如何为自定义Hadoop类型定义ArrayWritable？我试图在Hadoop中实现一个倒排索引，使用自定义Hadoop类型来存储数据。我有一个单独的list类，它存储术语频率、文档id和文档中该术语的字节偏移列表。我有一个发帖类，它有一个文档频率(术语出现的文档数量)和单个帖子列表。我已经定义了一个LongArrayWritable，扩展了IndividualPostings中字节偏移列表的A

浏览 0提问于2010-12-08得票数 4

2回答

在自定义配置单元UDF中重写的evaluate方法

、、、

我是一个为hive编写自定义udf的新手。我已经成功地为toupper函数编写了自定义udf。import org.apache.hadoop.hive.ql.exec.UDF; name="SimpleUDFExample", value="returns &

浏览 4提问于2015-03-23得票数 0

1回答

EMR -在Hadoop (和纱线)中使用自定义日志附录

、、、、

在我们的EMR集群中，我们使用自定义log4j附加器和log4j.properties，允许我们将日志转发到Splunk，并允许我们执行一些提供的库和配置不知道如何做的魔术。在EMR 3.x中，我们使用了引导操作did：从s3下载我们定制的log4j appender、log4j.properties、容器- log4j.properties，这些属性是我们定制的。将我们的自定义log4j附录jar放在/home/hadoop/sha

浏览 3提问于2015-12-03得票数 4

3回答

在Hadoop中可写和WritableComparable？

、

有谁能解释一下吗：这两者有什么不同？提前谢谢，

浏览 7提问于2015-09-11得票数 17

1回答

在HDI Hadoop群集中启用SSL

、、、

我使用的是Azure HDInsight Hadoop集群类型，HDI :Hadoop2.7(HDI3.6)。这不是Kerberised群集，因为未启用ESP。现在我需要在这个hadoop集群上启用SSL。如何确保在hadoop集群中启用SSL？我可以在core-default.xml文件中看到hadoop.ssl.enabled属性为false。现在，如何在此hadoop集群上启用SSL。感谢你的他谢谢

浏览 2提问于2019-12-03得票数 1

1回答