前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大数据面试题

大数据面试题

作者头像
孙晨c
发布2020-07-10 10:19:02
5590
发布2020-07-10 10:19:02
举报
文章被收录于专栏:无题~无题~无题~

Linux部分

①列举你使用的常用指令? ②怎么查看服务是否开启?后面的参数都是什么意思? ③怎么查看服务器内存使用情况? ④日志查看指令? ⑤跨机房怎么传输文件?

Hadoop部分

①怎么搭建一个Hadoop集群? ②Hadoop的Shuffer机制? ③切片概念?文件256M时,几个切片? ④Mr任务提交到yarn流程? ⑤数据倾斜概念?

Hive部分

①hive本质? ②group by、sort by、oreder by、distribute by、cluster by、partition by区别? ③开窗函数理解? ④UDF实现过程? ⑤有出现过HQL执行出现OOM的现象吗? ⑥hive导入数据和到处数据的方式?

HBase部分

①集群角色以及作用? ②client写过程和读过程? ③布隆过滤器? ④Hbase存储特点、与mysql相比? ⑤rowkey的设计? ⑥cell组成? ⑦compact触发时间?作用?

Kafka部分

①为什么要使用Kafka?好处? ②集群角色? ③kafka中数据写入过程?Follwer与leader如何实现数据同步? ④kafka消费者组概念?

Flume部分

①Flume组件成员以及含义? ②Flume传输数据方式? ③Flume传输数据会丢失吗?怎样避免丢失

Flink部分

①Flink最小计算单元? ②Flink任务提交至yarn流程? ③Flink时间语义几种、含义? ④Flink窗口类型? ⑤Flink状态后端类型?一般使用哪种类型? ⑥watermark水位线机制?如何设置数据延迟? ⑦checkpoint和savepoint区别?有什么好处? ⑧怎么理解Flink是保证数据不丢失的?端到端一致性含义? ⑨Flink提供了几层api?分别都适用哪些场景?

Spark部分

①角色组成与作用? ②spark提交任务至yarn流程? ③RDD含义及其特性? ④宽依赖与窄依赖?

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2020-07-08 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Linux部分
  • Hadoop部分
  • Hive部分
  • HBase部分
  • Kafka部分
  • Flume部分
  • Flink部分
  • Spark部分
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档