腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
积累沉淀
专栏成员
举报
201
文章
339238
阅读量
56
订阅数
订阅专栏
申请加入专栏
全部文章(201)
java(59)
javascript(23)
其他(21)
数据库(20)
hadoop(20)
数据处理(20)
python(12)
linux(12)
hbase(12)
编程算法(11)
云数据库 SQL Server(8)
sql(7)
mapreduce(7)
html(6)
spark(6)
xml(5)
eclipse(5)
struts(5)
大数据(5)
apache(4)
存储(4)
shell(4)
机器学习(3)
servlet(3)
云数据库 Redis(3)
spring(3)
jdbc(3)
数据结构(3)
数据挖掘(2)
ide(2)
api(2)
人工智能(2)
http(2)
mybatis(2)
面向对象编程(2)
任务调度(2)
c++(1)
go(1)
bash(1)
.net(1)
jsp(1)
json(1)
android(1)
ubuntu(1)
centos(1)
文件存储(1)
命令行工具(1)
网站(1)
数据安全(1)
容器(1)
游戏(1)
分布式(1)
缓存(1)
爬虫(1)
网络安全(1)
jdk(1)
jvm(1)
ssh(1)
zookeeper(1)
aop(1)
tcp/ip(1)
socket编程(1)
小程序(1)
windows(1)
https(1)
nat(1)
kafka(1)
join(1)
wait(1)
程序员(1)
后台(1)
进程(1)
通信(1)
线程(1)
搜索文章
搜索
搜索
关闭
研究MapReduce源码之实现自定义LineRecordReader完成多行读取文件内容
mapreduce
hadoop
TextInputFormat是Hadoop默认的数据输入格式,但是它只能一行一行的读记录,如果要读取多行怎么办? 很简单 自己写一个输入格式,然后写一个对应的Recordreader就可以了,但是要实现确不是这么简单的 首先看看TextInputFormat是怎么实现一行一行读取的 大家看一看源码 public class TextInputFormat extends FileInputFormat<LongWritable, Text> { @Override public Record
汤高
2018-01-11
1.5K
0
Hadoop2.6(新版本)----MapReduce工作原理
hadoop
mapreduce
最近在研究Hadoop,发现网上的一些关于Hadoop的资料都是以前的1.X版本的,包括MapReduce的工作原理,都是以前的一些过时了的东西,所以自己重新整理了一些新2.X版本的MapReduce
汤高
2018-01-11
1.1K
0
HBase整合MapReduce之建立HBase索引
云数据库 SQL Server
hbase
mapreduce
HBase索引主要用于提高Hbase中表数据的访问速度,有效的避免了全表扫描,HBase中的表根据行健被分成了多个Regions,通常一个region的一行都会包含较多的数据,如果以列值作为查询条件,就只能从第一行数据开始往下找,直到找到相关数据为止,这很低效。相反,如果将经常被查询的列作为行健、行健作为列重新构造一张表,即可实现根据列值快速定位相关数据所在的行,这就是索引。显然索引表仅需要包含一个列,所以索引表的大小和原表比起来要小得多,如图4-14给出了索引表与原表之间的关系。从图可以看出,由于索引表的
汤高
2018-01-11
1K
0
Mapreduce和HBase新版本整合之WordCount计数案例
mapreduce
hbase
先计数单词数量存到hdfs文件上,这个是以前的就做过的 package com.my.myhnase.mapreduce; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; i
汤高
2018-01-11
1.1K
0
HBase新版本与MapReduce集成
数据库
hbase
mapreduce
1.MapReduce从hbase读取数据 //读取hbase表数据 public class HbaseAndMapReduce { public static void main(String[] args) throws Exception { // 测试数据 // testData(); // 完成的作业是: 有共同爱好的人 System.exit(run()); /* * TableMa
汤高
2018-01-11
1.6K
0
Hadoop--倒排索引过程详解
hadoop
mapreduce
java
倒排索引就是根据单词内容来查找文档的方式,由于不是根据文档来确定文档所包含的内容,进行了相反的操作,所以被称为倒排索引 下面来看一个例子来理解什么是倒排索引 这里我准备了两个文件 分别为1.txt和2.txt 1.txt的内容如下 I Love Hadoop I like ZhouSiYuan I love me 2.txt的内容如下 I Love MapReduce I like NBA I love Hadoop 我这里使用的是默认的输入格式TextInputFormat,他是
汤高
2018-01-11
1.7K
0
Shuffle过程详解
mapreduce
缓存
hadoop
Shuffle过程是MapReduce的核心,最近看了很多资料,网上说法大体相同,但有些地方有一点点出入,就是各个阶段的执行顺序 总个shuffle过程可以看做是从map输出到reduce输入的这个中
汤高
2018-01-11
959
0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档