腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
波波烤鸭
专栏作者
举报
685
文章
817096
阅读量
114
订阅数
订阅专栏
申请加入专栏
全部文章
java
spring
编程算法
sql
数据库
容器
http
网络安全
xml
云数据库 Redis
jdk
mybatis
缓存
存储
网站
云数据库 SQL Server
maven
api
https
tomcat
微服务
servlet
linux
容器镜像服务
nginx
ide
访问管理
vue.js
spring cloud
git
数据
node.js
mvc
jsp
打包
腾讯云测试服务
html
jvm
jar
aop
javascript
分布式
开源
rabbitmq
对象
负载均衡
android
文件存储
zookeeper
tcp/ip
事件
json
hadoop
spring boot
dubbo
数据分析
数据结构
部署
github
负载均衡缓存
mapreduce
面向对象编程
eclipse
压力测试
单元测试
socket编程
自动驾驶
bootstrap
大数据
provider
c++
消息队列 CMQ 版
windows
service
面试
配置
php
shell
kafka
Elasticsearch Service
activiti
变量
服务
管理
网关
对象存储
bash
access
centos
apache
命令行工具
yarn
jdbc
安全
es
event
oracle11g
task
登录
基础
接口
设计
异常
源码
oracle
全文检索
unix
serverless
正则表达式
yum
rpc
虚拟化
bpmn
框架
日志
设计模式
事务
python
erlang
react
css
ajax
bash 指令
日志服务
短信
云推荐引擎
企业
ssh
sql server
hashmap
二叉树
微信
数据处理
error
execute
feign
gateway
invoke
pojo
process
properties
public
queue
编译器
表单
代理
定时器
动态代理
分页
函数
后台
集合
开发
入门
线程池
云服务器
其他
官方文档
ruby
go
lua
单片机
nosql
memcached
svn
搜索引擎
lucene/solr
批量计算
云数据库 MongoDB
TDSQL MySQL 版
mongodb
图像处理
日志数据
电商
渲染
数据安全
express
黑客
爬虫
html5
gui
npm
cdn
kernel
powershell
hbase
nat
element ui
mvcc
raft
服务网格
测试服务
abstract
action
add
admin
apply
boot
build
camunda
capture
class
code
controller
debug
dom
echarts
el
element
explorer
expression
fork
form
get
host
hystrix
import
io
ioc
ip
jbpm
jdk8
join
key
list
listener
logback
message
mysql
null
nullpointerexception
ode
output
photoshop
plsql
post
product
refresh
row
self
string
struts2
table
threadpoolexecutor
time
tree
ui
word
worker
编程
编码
编译
并发
插件
程序
二维码
反射
工具
工具类
环境搭建
继承
架构
脚本
链表
模型
权限
手机
数组
索引
统计
微信支付
系统
线程
虚拟机
异常处理
优化
指针
注解
字符串
作用域
搜索文章
搜索
搜索
关闭
MapReduce切片机制
hadoop
mapreduce
MapReduce是一个分布式计算框架,处理的是海量数据的计算。那么并行运算必不可免,但是到底并行多少个Map任务来计算呢?每个Map任务计算哪些数据呢?这些我们数据我们不能够凭空估计,只能根据实际数据的存储情况来动态分配,而我们要介绍的切片就是要解决这个问题,
用户4919348
2019-04-17
1.1K
0
MapReduce之流量汇总案例
mapreduce
现在我们采集到了一份用户访问流量的数据,我们需要从这份数据中统计出每个用户的流量数据。
用户4919348
2019-04-17
559
0
Hadoop之MapReduce03【wc案例流程分析】
yarn
mapreduce
node.js
1.当客户端提交submit的时候客户端程序会根据我们输入的/wordcount/input地址找到需要统计的数据,根据我们的配置信息得到任务规划文件 2.将任务规划文件上传到hdfs指定的位置。
用户4919348
2019-04-17
413
0
Hadoop之MapReduce02【自定义wordcount案例】
java
mapreduce
打包
创建MapperTask 创建一个java类继承Mapper父类 接口形参说明 参数 说明 K1 默认是一行一行读取的偏移量的类型 V1 默认读取的一行的类型 K2 用户处理完成后返回的数据的
用户4919348
2019-04-17
355
0
Hadoop之MapReduce01【自带wordcount案例】
hadoop
分布式
mapreduce
大数据
yarn
Mapreduce 是一个分布式运算程序的编程框架,是用户开发“基于 hadoop 的数据分析应用”的核心框架,Mapreduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的 分布式运算程序,并发运行在一个 hadoop 集群上.
用户4919348
2019-04-17
1.5K
0
MapReduce原理分析之MapTask读取数据
mapreduce
通过前面的内容介绍相信大家对于MapReduce的操作有了一定的了解,通过客户端源码的分析也清楚了split是逻辑分区,记录了每个分区对应的是哪个文件,从什么位置开始到什么位置介绍,而且一个split对应一个Map Task任务,而MapTask具体是怎么读取文件的呢?本文来具体分析下。
用户4919348
2019-04-17
491
0
MapReduce之分区器(Partitioner)
mapreduce
Partitioner 组件可以对 MapTask后的数据按Key进行分区,从而将不同分区的Key交由不同的Reduce处理。这个也是我们经常会用到的功能。
用户4919348
2019-04-17
1K
0
MapReduce之输出结果排序
mapreduce
前面的案例中我们介绍了统计出每个用户的上行流量,下行流量及总流量,现在我们想要将输出的结果按照总流量倒序排序。
用户4919348
2019-04-17
2K
0
Hadoop02【架构分析】
hadoop
大数据
数据处理
mapreduce
yarn
Hadoop1.0即第一代Hadoop,指的是版本为Apache Hadoop 0.20.x、1.x或者CDH3系列的Hadoop,内核主要由HDFS和MapReduce两个系统组成,其中MapReduce是一个离线处理框架,由编程模型(新旧API)、运行时环境(JobTracker和TaskTracker)和数据处理引擎(MapTask和ReduceTask)三部分组成。
用户4919348
2019-04-02
696
0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档