前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大数据技术之Hadoop3.x笔记

大数据技术之Hadoop3.x笔记

原创
作者头像
硅谷子
修改2021-08-23 18:39:25
4990
修改2021-08-23 18:39:25
举报
文章被收录于专栏:BigdataBigdata

一、Hadoop入门

1、常用端口号

hadoop3.x

HDFS NameNode 内部通常端口:8020/9000/9820

HDFS NameNode 对用户的查询端口:9870

Yarn查看任务运行情况的:8088

历史服务器:19888

hadoop2.x

HDFS NameNode 内部通常端口:8020/9000

HDFS NameNode 对用户的查询端口:50070

Yarn查看任务运行情况的:8088

历史服务器:19888

2、常用的配置文件

3.x core-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml workers

2.x core-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml slaves

二、HDFS

1、HDFS文件块大小(面试重点)

硬盘读写速度

在企业中 一般128m(中小公司) 256m (大公司)

2、HDFS的Shell操作(开发重点)

3、HDFS的读写流程(面试重点)

三、Map Reduce

1、InputFormat

1)默认的是TextInputformat kv key偏移量,v :一行内容

2)处理小文件CombineTextInputFormat 把多个文件合并到一起统一切片

2、Mapper

setup()初始化; map()用户的业务逻辑; clearup() 关闭资源;

3、分区

默认分区HashPartitioner ,默认按照key的hash值%numreducetask个数

自定义分区

4、排序

1)部分排序 每个输出的文件内部有序。

2)全排序: 一个reduce ,对所有数据大排序。

3)二次排序: 自定义排序范畴, 实现 writableCompare接口, 重写compareTo方法

总流量倒序 按照上行流量 正序

5、Combiner

前提:不影响最终的业务逻辑(求和 没问题 求平均值)

提前聚合map => 解决数据倾斜的一个方法

6、Reduce

用户的业务逻辑;

setup()初始化;reduce()用户的业务逻辑; clearup() 关闭资源;

7、OutputFormat

1)默认TextOutputFormat 按行输出到文件

2)自定义

四、Yarn

1、Yarn的工作机制(面试题)

2、Yarn的调度器

1)FIFO/容量/公平

2)apache 默认调度器 容量; CDH默认调度器 公平

3)公平/容量默认一个default ,需要创建多队列

4)中小企业:hive spark flink mr

5)中大企业:业务模块:登录/注册/购物车/营销

6)好处:解耦 降低风险 11.11 6.18 降级使用

7)每个调度器特点:

相同点:支持多队列,可以借资源,支持多用户

不同点:容量调度器:优先满足先进来的任务执行

公平调度器,在队列里面的任务公平享有队列资源

8)生产环境怎么选:

中小企业,对并发度要求不高,选择容量

中大企业,对并发度要求比较高,选择公平。

3、开发需要重点掌握:

1)队列运行原理

2)Yarn常用命令

3)核心参数配置

4)配置容量调度器和公平调度器。

5)tool接口使用。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档