腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

积累沉淀

专栏作者

201

文章

326963

阅读量

56

订阅数

研究MapReduce源码之实现自定义LineRecordReader完成多行读取文件内容

mapreduce hadoop

TextInputFormat是Hadoop默认的数据输入格式,但是它只能一行一行的读记录，如果要读取多行怎么办？很简单自己写一个输入格式，然后写一个对应的Recordreader就可以了，但是要实现确不是这么简单的首先看看TextInputFormat是怎么实现一行一行读取的大家看一看源码 public class TextInputFormat extends FileInputFormat<LongWritable, Text> { @Override public Record

2018-01-11

1.5K0

干货--Hadoop自定义数据类型和自定义输入输出格式整合项目案例

数据处理 hadoop

正文开始前 ,先介绍几个概念序列化所谓序列化,是指将结构化对象转化为字节流,以便在网络上传输或写到磁盘进行永久存储。反序列化是指将字节流转回到结构化对象的逆过程序列化在分布式数据处理的两个大领域经常出现:进程间通信和永久存储在Hadoop中，系统中多个节点上进程间的通信是通过"远程过程调用"(remote procedure call,RPC)实现的。RPC协议将消息序列化成二进制流后发送到远程节点，远程节点接着将二进制流反序列化为原始消息 Hadoop使用了自己写的序列化格式Writ

2018-01-11

1.8K0

windows下hadoop-eclipse的编程所引起的一系列错误

解决Exception: org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z 等一系列问题，ljavalangstring 一．简介 Windows下的 Eclipse上调试Hadoop2代码，所以我们在windows下的Eclipse配置hadoop-eclipse-plugin-2.6.0.jar插件，并在运行Hadoop代码时出现了一系列的问题，搞了好几天终于能运行起代码。接下来我们来看看问题并

2018-01-11

7490

Hadoop2.6（新版本）----MapReduce工作原理

hadoop mapreduce

最近在研究Hadoop,发现网上的一些关于Hadoop的资料都是以前的1.X版本的,包括MapReduce的工作原理,都是以前的一些过时了的东西,所以自己重新整理了一些新2.X版本的MapReduce

2018-01-11

1.1K0

Hadoop--HDFS API编程封装

hadoop api 分布式 java

HDFS是一个分布式文件系统，既然是文件系统，就可以对其文件进行操作，比如说新建文件、删除文件、读取文件内容等操作。下面记录一下使用JAVA API对HDFS中的文件进行操作的过程。　　对分HDFS中的文件操作主要涉及一下几个类：　　Configuration类：该类的对象封转了客户端或者服务器的配置。　　FileSystem类：该类的对象是一个文件系统对象，可以用该对象的一些方法来对文件进行操作。FileSystem fs = FileSystem.get(conf);通过FileSystem的静态

2018-01-11

9730

干货--安装eclipse-hadoop-plugin插件及HDFS API编程两个遇到的重要错误的解决

在Windows的eclipse上写hdfs的API程序，都会遇到两个错误，在网上查了很多资料，都没有解决的办法，经过了很多时间的研究，终于把这个问题解决了错误是 1.java.io.IOException :HADOOP_HOME or hadoop.home.dir are not set. 2.java.io.IOException:could not locate executable D:\hadoop-2.6.4\hadoop-2.6.4\bin/winutils.exe in the

2018-01-11

9220

Hadoop五个进程的作用和联系

1.NameNode: 相当于一个领导者，负责调度，比如你需要存一个1280m的文件如果按照128m分块那么namenode就会把这10个块（这里不考虑副本）分配到集群中的datanode上并记录对于关系。当你要下载这个文件的时候namenode就知道在那些节点上给你取这些数据了。它主要维护两个 map 一个是文件到块的对应关系一个是块到节点的对应关系。 2. secondarynamenode：它是namenode的一个快照，会根据con

2018-01-11

1.2K0

hbase集群安装（3）-安转Hadoop

安转Hadoop 我的安装路径是根目录下的software 把Hadoop压缩包解压到software目录下解压后查看目录要修改的配置文件有四个修改hadoop-env.sh 修改core-si

2018-01-11

8580

Hive安装配置详解

云数据库 SQL Server 数据库 apache hadoop

Hive安装配置详解 1. 安装MySQL sudo apt-get install mysql-server mysql-client 1). 建立数据库hive， create database hive; 2). 创建用户hive create user 'hive'@'%' identified by 'hive'; 3).创建hive用户,并授权 grant all on hive.* to hive@'%' identified by 'hive'; flush privileg

2018-01-11

1.7K0

hadoop与hbase伪分布式的基本配制文件设置

Hadoop 0.hbase-env.sh export JAVA_HOME=/software/jdk1.7.0_80 1.core-site.xml <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://master:9000</value> </property> <property> <name>hadoop.tmp.

2018-01-11

4980

Hbase原理、基本概念、基本架构

hbase 数据处理数据库 hadoop

Hbase原理、基本概念、基本架构概述 HBase是一个构建在HDFS上的分布式列存储系统； HBase是基于Google BigTable模型开发的，典型的key/value系统； HBa

2018-01-11

2.9K0

Hadoop学习之网络爬虫+分词+倒排索引实现搜索引擎案例

爬虫大数据 hadoop

本项目实现的是：自己写一个网络爬虫，对搜狐(或者csdn)爬取新闻(博客)标题,然后把这些新闻标题和它的链接地址上传到hdfs多个文件上，一个文件对应一个标题和链接地址，然后通过分词技术对每个文件中的标题进行分词，分词后建立倒排索引以此来实现搜索引擎的功能，建立倒排索引不熟悉的朋友可以看看我上篇博客 Hadoop–倒排索引过程详解首先要自己写一个网络爬虫由于我开始写爬虫的时候用了htmlparser，把所有搜到的链接存到队列，并且垂直搜索，这个工作量太大，爬了一个小时还没爬完造成了我电脑的死

2018-01-11

1.1K0

Hadoop--倒排索引过程详解

hadoop mapreduce java

倒排索引就是根据单词内容来查找文档的方式，由于不是根据文档来确定文档所包含的内容，进行了相反的操作，所以被称为倒排索引下面来看一个例子来理解什么是倒排索引这里我准备了两个文件分别为1.txt和2.txt 1.txt的内容如下 I Love Hadoop I like ZhouSiYuan I love me 2.txt的内容如下 I Love MapReduce I like NBA I love Hadoop 我这里使用的是默认的输入格式TextInputFormat，他是

2018-01-11

1.6K0

安转hbase集群----安装Zookeeper和Hbase

1.zookeeper安装把解压文件从桌面移到安装目录software 解压显示文件修改zoo.cfg文件我的丛机就是主机注意：如果有多台丛机应该这样配创建datadir指

2018-01-11

1.6K1

自定义分区、数据类型、排序、分组

自定义分区、数据类型、排序、分组 /** * * @author 自定义数据类型键对象 * */ public class KeyPair implements WritableComparable<KeyPair> { private int year; private double hot; public int getYear() { return year; } public void setYear(int year) {

2018-01-11

7630

Shuffle过程详解

mapreduce 缓存 hadoop

Shuffle过程是MapReduce的核心，最近看了很多资料，网上说法大体相同，但有些地方有一点点出入，就是各个阶段的执行顺序总个shuffle过程可以看做是从map输出到reduce输入的这个中

2018-01-11

9060

Java接入Spark之创建RDD的两种方式和操作RDD

首先看看思维导图，我的spark是1.6.1版本，jdk是1.7版本 spark是什么？ Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算，提高了在大数据环境下数据处理的

2018-01-11

1.6K0

25分钟掌握Hive基本操作

数据库 hadoop

15分钟掌握Hive基本操作（1）、从本地文件系统中导入数据到Hive表；（2）、从HDFS上导入数据到Hive表；（3）、从别的表中查询出相应的数据并导入到Hive表中；（4）、在创建表的时候通过从别的表中查询出相应的记录并插入到所创建的表中。　　一、从本地文件系统中导入数据到Hive表　　先在Hive里面创建好表，如下： 1 hive> create table tanggao 2 > (id int, name string, 3 > age int, tel string

2018-01-11

5550

Hive与HBase实现数据互导

建立与HBase的识别表 hive> create table hive_hbase_1(key int,value string) > stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' > WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,cf1:info") > TBLPROPERTIES ("hbase.table.name" = "userinf

2018-01-11

1K0

Hadoop整合Hive之API封装及操作

首先看依赖 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> <modelVersion>4.0.0</modelVersion>

2018-01-11

1.4K0

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态