这是之前一个同学的面经,经过3个月的面试,最终成功上岸某新能源头部车企,面经还热乎!
1.介绍项目,项目中的重点难点
2.hive的优化,这个好几家公司都问了
3.hive sql的执行计
4.hive和mysql的区别
5.Sort by 和order by的区别
6.数据倾斜的场景,如何解决的
7.sql题
字段:订单id,时间,用户id
计算10分钟内连续下单大于100次的用户
1.介绍项目,项目中的重点难点
2.数仓建模理论
3.冷热数据如何处理
4.数据治理从哪几个方面进行
5.数据质量的衡量标准,数据质量的效果,如何验收,项目流程
6.用的星型还是雪花模型,区别是什么?
1.介绍项目,项目中的重点难点
2.linux命令 查找文件,awk命令
3.kafka分区,ack机制
4.spark的执行原理
5.解析下spark的DAG
6.mr的执行原理
7.大小表join的优化
8.Spark常用算子reduceByKey与groupByKey的区别,哪一种更具优势?
9.Spark任务执行模式,提交任务,资源也够的情况下,还是不能跑,啥原因
10.spark和MR的区别
1.介绍项目,项目中的重点难点
2.项目中遇到啥问题
3.kafka丢失数据,怎么解决
4.kafka的核心组件介绍 topic,broker,partition,consumer,producer
5.clickhouse的各类引擎,怎么用的,啥原理,你们咋用的
6.Flink checkpoint执行流程
7.flink和spark 对比
1.介绍项目,项目中的重点难点
2.数据中台oneid,oneservice
3.遇到啥问题,项目进度把控,资源协调
4.数据的安全,权限的管理
5.数仓重构,数仓模型的建设,遇到啥问题,什么样的周期,如何安排的,效率咋样
市面上岗位没有去年多,但是还是拿到了多家公司的面试邀请,有的面试感觉还不错,但是没下文了(可能是横向比较挂了)。
主要还是数仓建模,实时和离线框架,个人简历上的的项目(面试核心哦)等大方向,再加上数据质量,数据治理等。
项目是核心中的核心,所有面试都问,占比很高。
技术框架集中在Flink,Spark,Kafka、Hive等。
以及工作习惯,风险把控,资源协调,跨部门沟通等软技能。
如果这个文章对你有帮助,不要忘记 「在看」 「点赞」 「收藏」 三连啊喂!