腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
积累沉淀
专栏作者
举报
201
文章
326963
阅读量
56
订阅数
订阅专栏
申请加入专栏
全部文章
java
javascript
其他
数据库
hadoop
数据处理
python
linux
hbase
编程算法
云数据库 SQL Server
sql
mapreduce
html
spark
xml
eclipse
struts
大数据
apache
存储
shell
机器学习
servlet
云数据库 Redis
spring
jdbc
数据结构
数据挖掘
ide
api
人工智能
http
mybatis
面向对象编程
任务调度
c++
go
bash
.net
jsp
json
android
ubuntu
centos
文件存储
命令行工具
网站
数据安全
容器
游戏
分布式
缓存
爬虫
网络安全
jdk
jvm
ssh
zookeeper
aop
tcp/ip
socket编程
小程序
windows
https
nat
kafka
join
wait
程序员
后台
进程
通信
线程
搜索文章
搜索
搜索
关闭
研究MapReduce源码之实现自定义LineRecordReader完成多行读取文件内容
mapreduce
hadoop
TextInputFormat是Hadoop默认的数据输入格式,但是它只能一行一行的读记录,如果要读取多行怎么办? 很简单 自己写一个输入格式,然后写一个对应的Recordreader就可以了,但是要实现确不是这么简单的 首先看看TextInputFormat是怎么实现一行一行读取的 大家看一看源码 public class TextInputFormat extends FileInputFormat<LongWritable, Text> { @Override public Record
汤高
2018-01-11
1.5K
0
干货--Hadoop自定义数据类型和自定义输入输出格式整合项目案例
数据处理
hadoop
正文开始前 ,先介绍几个概念 序列化 所谓序列化,是指将结构化对象转化为字节流,以便在网络上传输或写到磁盘进行永久存储。 反序列化 是指将字节流转回到结构化对象的逆过程 序列化在分布式数据处理的两个大领域经常出现:进程间通信和永久存储 在Hadoop中,系统中多个节点上进程间的通信是通过"远程过程调用"(remote procedure call,RPC)实现的 。RPC协议将消息序列化成二进制流后发送到远程节点,远程节点接着将二进制流反序列化为原始消息 Hadoop使用了自己写的序列化格式Writ
汤高
2018-01-11
1.8K
0
windows下hadoop-eclipse的编程所引起的一系列错误
hadoop
eclipse
解决Exception: org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z 等一系列问题,ljavalangstring 一.简介 Windows下的 Eclipse上调试Hadoop2代码,所以我们在windows下的Eclipse配置hadoop-eclipse-plugin-2.6.0.jar插件,并在运行Hadoop代码时出现了一系列的问题,搞了好几天终于能运行起代码。接下来我们来看看问题并
汤高
2018-01-11
749
0
Hadoop2.6(新版本)----MapReduce工作原理
hadoop
mapreduce
最近在研究Hadoop,发现网上的一些关于Hadoop的资料都是以前的1.X版本的,包括MapReduce的工作原理,都是以前的一些过时了的东西,所以自己重新整理了一些新2.X版本的MapReduce
汤高
2018-01-11
1.1K
0
Hadoop--HDFS API编程封装
hadoop
api
分布式
java
HDFS是一个分布式文件系统,既然是文件系统,就可以对其文件进行操作,比如说新建文件、删除文件、读取文件内容等操作。下面记录一下使用JAVA API对HDFS中的文件进行操作的过程。 对分HDFS中的文件操作主要涉及一下几个类: Configuration类:该类的对象封转了客户端或者服务器的配置。 FileSystem类:该类的对象是一个文件系统对象,可以用该对象的一些方法来对文件进行操作。FileSystem fs = FileSystem.get(conf);通过FileSystem的静态
汤高
2018-01-11
973
0
干货--安装eclipse-hadoop-plugin插件及HDFS API编程两个遇到的重要错误的解决
eclipse
hadoop
在Windows的eclipse上写hdfs的API程序,都会遇到两个错误,在网上查了很多资料,都没有解决的办法,经过了很多时间的研究,终于把这个问题解决了 错误是 1.java.io.IOException :HADOOP_HOME or hadoop.home.dir are not set. 2.java.io.IOException:could not locate executable D:\hadoop-2.6.4\hadoop-2.6.4\bin/winutils.exe in the
汤高
2018-01-11
922
0
Hadoop五个进程的作用和联系
hadoop
1.NameNode: 相当于一个领导者,负责调度 ,比如你需要存一个1280m的文件 如果按照128m分块 那么namenode就会把这10个块(这里不考虑副本) 分配到集群中的datanode上并记录对于关系 。当你要下载这个文件的时 候namenode就知道在那些节点上给你取这些数据了。它主要维护两个 map 一个是文件到块的对应关系 一个是块到节点的对应关系。 2. secondarynamenode: 它是namenode的一个快照,会根据con
汤高
2018-01-11
1.2K
0
hbase集群安装(3)-安转Hadoop
hadoop
安转Hadoop 我的安装路径是根目录下的software 把Hadoop压缩包解压到software目录下 解压后查看目录 要修改的配置文件有四个 修改hadoop-env.sh 修改core-si
汤高
2018-01-11
858
0
Hive安装配置详解
云数据库 SQL Server
数据库
apache
hadoop
Hive安装配置详解 1. 安装MySQL sudo apt-get install mysql-server mysql-client 1). 建立数据库hive, create database hive; 2). 创建用户hive create user 'hive'@'%' identified by 'hive'; 3).创建hive用户,并授权 grant all on hive.* to hive@'%' identified by 'hive'; flush privileg
汤高
2018-01-11
1.7K
0
hadoop与hbase伪分布式的基本配制文件设置
hadoop
hbase
Hadoop 0.hbase-env.sh export JAVA_HOME=/software/jdk1.7.0_80 1.core-site.xml <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://master:9000</value> </property> <property> <name>hadoop.tmp.
汤高
2018-01-11
498
0
Hbase原理、基本概念、基本架构
hbase
数据处理
数据库
hadoop
Hbase原理、基本概念、基本架构 概述 HBase是一个构建在HDFS上的分布式列存储系统; HBase是基于Google BigTable模型开发的,典型的key/value系统; HBa
汤高
2018-01-11
2.9K
0
Hadoop学习之网络爬虫+分词+倒排索引实现搜索引擎案例
爬虫
大数据
hadoop
本项目实现的是:自己写一个网络爬虫,对搜狐(或者csdn)爬取新闻(博客)标题,然后把这些新闻标题和它的链接地址上传到hdfs多个文件上,一个文件对应一个标题和链接地址,然后通过分词技术对每个文件中的标题进行分词,分词后建立倒排索引以此来实现搜索引擎的功能,建立倒排索引不熟悉的朋友可以看看我上篇博客 Hadoop–倒排索引过程详解 首先 要自己写一个网络爬虫 由于我开始写爬虫的时候用了htmlparser,把所有搜到的链接存到队列,并且垂直搜索,这个工作量太大,爬了一个小时还没爬完造成了我电脑的死
汤高
2018-01-11
1.1K
0
Hadoop--倒排索引过程详解
hadoop
mapreduce
java
倒排索引就是根据单词内容来查找文档的方式,由于不是根据文档来确定文档所包含的内容,进行了相反的操作,所以被称为倒排索引 下面来看一个例子来理解什么是倒排索引 这里我准备了两个文件 分别为1.txt和2.txt 1.txt的内容如下 I Love Hadoop I like ZhouSiYuan I love me 2.txt的内容如下 I Love MapReduce I like NBA I love Hadoop 我这里使用的是默认的输入格式TextInputFormat,他是
汤高
2018-01-11
1.6K
0
安转hbase集群----安装Zookeeper和Hbase
hadoop
hbase
1.zookeeper安装 把解压文件从桌面移到安装目录software 解压 显示文件 修改zoo.cfg文件 我的丛机就是主机 注意:如果有多台丛机应该这样配 创建datadir指
汤高
2018-01-11
1.6K
1
自定义分区、数据类型、排序、分组
hadoop
java
自定义分区、数据类型、排序、分组 /** * * @author 自定义数据类型 键对象 * */ public class KeyPair implements WritableComparable<KeyPair> { private int year; private double hot; public int getYear() { return year; } public void setYear(int year) {
汤高
2018-01-11
763
0
Shuffle过程详解
mapreduce
缓存
hadoop
Shuffle过程是MapReduce的核心,最近看了很多资料,网上说法大体相同,但有些地方有一点点出入,就是各个阶段的执行顺序 总个shuffle过程可以看做是从map输出到reduce输入的这个中
汤高
2018-01-11
906
0
Java接入Spark之创建RDD的两种方式和操作RDD
spark
hadoop
首先看看思维导图,我的spark是1.6.1版本,jdk是1.7版本 spark是什么? Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算,提高了在大数据环境下数据处理的
汤高
2018-01-11
1.6K
0
25分钟掌握Hive基本操作
数据库
hadoop
15分钟掌握Hive基本操作 (1)、从本地文件系统中导入数据到Hive表; (2)、从HDFS上导入数据到Hive表; (3)、从别的表中查询出相应的数据并导入到Hive表中; (4)、在创建表的时候通过从别的表中查询出相应的记录并插入到所创建的表中。 一、从本地文件系统中导入数据到Hive表 先在Hive里面创建好表,如下: 1 hive> create table tanggao 2 > (id int, name string, 3 > age int, tel string
汤高
2018-01-11
555
0
Hive与HBase实现数据互导
hadoop
hbase
建立与HBase的识别表 hive> create table hive_hbase_1(key int,value string) > stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' > WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,cf1:info") > TBLPROPERTIES ("hbase.table.name" = "userinf
汤高
2018-01-11
1K
0
Hadoop整合Hive之API封装及操作
hadoop
api
首先看依赖 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> <modelVersion>4.0.0</modelVersion>
汤高
2018-01-11
1.4K
0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档