首页
学习
活动
专区
工具
TVP
发布

积累沉淀

专栏作者
201
文章
326963
阅读量
56
订阅数
研究MapReduce源码之实现自定义LineRecordReader完成多行读取文件内容
TextInputFormat是Hadoop默认的数据输入格式,但是它只能一行一行的读记录,如果要读取多行怎么办? 很简单 自己写一个输入格式,然后写一个对应的Recordreader就可以了,但是要实现确不是这么简单的 首先看看TextInputFormat是怎么实现一行一行读取的 大家看一看源码 public class TextInputFormat extends FileInputFormat<LongWritable, Text> { @Override public Record
汤高
2018-01-11
1.5K0
干货--Hadoop自定义数据类型和自定义输入输出格式整合项目案例
正文开始前 ,先介绍几个概念 序列化 所谓序列化,是指将结构化对象转化为字节流,以便在网络上传输或写到磁盘进行永久存储。 反序列化 是指将字节流转回到结构化对象的逆过程 序列化在分布式数据处理的两个大领域经常出现:进程间通信和永久存储 在Hadoop中,系统中多个节点上进程间的通信是通过"远程过程调用"(remote procedure call,RPC)实现的 。RPC协议将消息序列化成二进制流后发送到远程节点,远程节点接着将二进制流反序列化为原始消息 Hadoop使用了自己写的序列化格式Writ
汤高
2018-01-11
1.8K0
windows下hadoop-eclipse的编程所引起的一系列错误
解决Exception: org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z 等一系列问题,ljavalangstring 一.简介    Windows下的 Eclipse上调试Hadoop2代码,所以我们在windows下的Eclipse配置hadoop-eclipse-plugin-2.6.0.jar插件,并在运行Hadoop代码时出现了一系列的问题,搞了好几天终于能运行起代码。接下来我们来看看问题并
汤高
2018-01-11
7490
Hadoop2.6(新版本)----MapReduce工作原理
最近在研究Hadoop,发现网上的一些关于Hadoop的资料都是以前的1.X版本的,包括MapReduce的工作原理,都是以前的一些过时了的东西,所以自己重新整理了一些新2.X版本的MapReduce
汤高
2018-01-11
1.1K0
Hadoop--HDFS API编程封装
HDFS是一个分布式文件系统,既然是文件系统,就可以对其文件进行操作,比如说新建文件、删除文件、读取文件内容等操作。下面记录一下使用JAVA API对HDFS中的文件进行操作的过程。   对分HDFS中的文件操作主要涉及一下几个类:   Configuration类:该类的对象封转了客户端或者服务器的配置。   FileSystem类:该类的对象是一个文件系统对象,可以用该对象的一些方法来对文件进行操作。FileSystem fs = FileSystem.get(conf);通过FileSystem的静态
汤高
2018-01-11
9730
干货--安装eclipse-hadoop-plugin插件及HDFS API编程两个遇到的重要错误的解决
在Windows的eclipse上写hdfs的API程序,都会遇到两个错误,在网上查了很多资料,都没有解决的办法,经过了很多时间的研究,终于把这个问题解决了 错误是 1.java.io.IOException :HADOOP_HOME or hadoop.home.dir are not set. 2.java.io.IOException:could not locate executable D:\hadoop-2.6.4\hadoop-2.6.4\bin/winutils.exe in the
汤高
2018-01-11
9220
Hadoop五个进程的作用和联系
1.NameNode:     相当于一个领导者,负责调度 ,比如你需要存一个1280m的文件     如果按照128m分块 那么namenode就会把这10个块(这里不考虑副本)     分配到集群中的datanode上并记录对于关系 。当你要下载这个文件的时    候namenode就知道在那些节点上给你取这些数据了。它主要维护两个    map 一个是文件到块的对应关系 一个是块到节点的对应关系。 2. secondarynamenode:     它是namenode的一个快照,会根据con
汤高
2018-01-11
1.2K0
hbase集群安装(3)-安转Hadoop
安转Hadoop 我的安装路径是根目录下的software 把Hadoop压缩包解压到software目录下 解压后查看目录 要修改的配置文件有四个 修改hadoop-env.sh 修改core-si
汤高
2018-01-11
8580
Hive安装配置详解
Hive安装配置详解 1. 安装MySQL  sudo apt-get install mysql-server mysql-client  1). 建立数据库hive, create database hive;   2). 创建用户hive create user 'hive'@'%' identified by 'hive';  3).创建hive用户,并授权 grant all on hive.* to hive@'%'  identified by 'hive';   flush privileg
汤高
2018-01-11
1.7K0
hadoop与hbase伪分布式的基本配制文件设置
Hadoop 0.hbase-env.sh export JAVA_HOME=/software/jdk1.7.0_80 1.core-site.xml  <configuration>     <property>          <name>fs.defaultFS</name>          <value>hdfs://master:9000</value>      </property>      <property>          <name>hadoop.tmp.
汤高
2018-01-11
4980
Hbase原理、基本概念、基本架构
Hbase原理、基本概念、基本架构 概述 HBase是一个构建在HDFS上的分布式列存储系统; HBase是基于Google BigTable模型开发的,典型的key/value系统; HBa
汤高
2018-01-11
2.9K0
Hadoop学习之网络爬虫+分词+倒排索引实现搜索引擎案例
本项目实现的是:自己写一个网络爬虫,对搜狐(或者csdn)爬取新闻(博客)标题,然后把这些新闻标题和它的链接地址上传到hdfs多个文件上,一个文件对应一个标题和链接地址,然后通过分词技术对每个文件中的标题进行分词,分词后建立倒排索引以此来实现搜索引擎的功能,建立倒排索引不熟悉的朋友可以看看我上篇博客 Hadoop–倒排索引过程详解 首先 要自己写一个网络爬虫 由于我开始写爬虫的时候用了htmlparser,把所有搜到的链接存到队列,并且垂直搜索,这个工作量太大,爬了一个小时还没爬完造成了我电脑的死
汤高
2018-01-11
1.1K0
Hadoop--倒排索引过程详解
倒排索引就是根据单词内容来查找文档的方式,由于不是根据文档来确定文档所包含的内容,进行了相反的操作,所以被称为倒排索引 下面来看一个例子来理解什么是倒排索引 这里我准备了两个文件 分别为1.txt和2.txt 1.txt的内容如下 I Love Hadoop I like ZhouSiYuan I love me 2.txt的内容如下 I Love MapReduce I like NBA I love Hadoop 我这里使用的是默认的输入格式TextInputFormat,他是
汤高
2018-01-11
1.6K0
安转hbase集群----安装Zookeeper和Hbase
1.zookeeper安装 把解压文件从桌面移到安装目录software 解压 显示文件 修改zoo.cfg文件 我的丛机就是主机 注意:如果有多台丛机应该这样配 创建datadir指
汤高
2018-01-11
1.6K1
自定义分区、数据类型、排序、分组
自定义分区、数据类型、排序、分组 /** * * @author 自定义数据类型 键对象 * */ public class KeyPair implements WritableComparable<KeyPair> { private int year; private double hot; public int getYear() { return year; } public void setYear(int year) {
汤高
2018-01-11
7630
Shuffle过程详解
Shuffle过程是MapReduce的核心,最近看了很多资料,网上说法大体相同,但有些地方有一点点出入,就是各个阶段的执行顺序 总个shuffle过程可以看做是从map输出到reduce输入的这个中
汤高
2018-01-11
9060
Java接入Spark之创建RDD的两种方式和操作RDD
首先看看思维导图,我的spark是1.6.1版本,jdk是1.7版本 spark是什么? Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算,提高了在大数据环境下数据处理的
汤高
2018-01-11
1.6K0
25分钟掌握Hive基本操作
15分钟掌握Hive基本操作 (1)、从本地文件系统中导入数据到Hive表; (2)、从HDFS上导入数据到Hive表; (3)、从别的表中查询出相应的数据并导入到Hive表中; (4)、在创建表的时候通过从别的表中查询出相应的记录并插入到所创建的表中。   一、从本地文件系统中导入数据到Hive表   先在Hive里面创建好表,如下: 1 hive> create table tanggao 2     > (id int, name string, 3     > age int, tel string
汤高
2018-01-11
5550
Hive与HBase实现数据互导
建立与HBase的识别表 hive> create table hive_hbase_1(key int,value string)     > stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'     > WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,cf1:info")     > TBLPROPERTIES ("hbase.table.name" = "userinf
汤高
2018-01-11
1K0
Hadoop整合Hive之API封装及操作
首先看依赖 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> <modelVersion>4.0.0</modelVersion>
汤高
2018-01-11
1.4K0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档