前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >对于一般大数据物流项目的面试题(问题+答案)

对于一般大数据物流项目的面试题(问题+答案)

作者头像
Maynor
发布2021-12-07 12:10:15
3040
发布2021-12-07 12:10:15
举报

1、数据采集如何完成 OGG 不要涉及,Oracle DBA完成 Canal数据采集,一定知道高可用HA集群模式 2、数据量大小 Kafka topic 数据存储生命周期(多久) 7天

Kafka Topic 个数及分区数和副本

Kakfa 分区数 分区数并不是越多越好,一般分区数不要超过集群机器数量。分区数越多占用内存越大(ISR 等),一个节点集中的分区也就越多,当它宕机的时候,对系统的影响也就越大。 分区数一般设置为:3-10 个 副本数设定 一般我们设置成 2 个或 3 个,很多企业设置为 2 个。 多少个 Topic 通常情况:多少个日志类型就多少个 Topic。也有对日志类型进行合并的。

Kafka 集群规模及机器配置 Kafka 机器数量=2*(峰值生产速度*副本数/100)+1

3、实时增量ETL程序开发,为什么选择使用StructuredStreaming?? 重点知识点

4、消费Kafka数据几种方式及区别,如何保存偏移量? SparkStreaming Checkpoint或自己管理 StructuredStreaming 使用Checkpoint管理

5、为什么使用Kudu存储,不使用HBase?? 数据库【数据上的快速分析】 当数据量级起来以后,会发现数据库吃不消了或者成本开销太大了,此时就需要把数据从事务型数据库里拷贝出来或者说剥离出来,装入一个分析型的数据库(OLAP)里。发现对于实时性和变更性的需求, 目前只有 Kudu 一种组件能够满足需求 两者区别??

Kudu中数据读写流程

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Kudu如何存储数据,每个表分区策略???

Kudu使用注意事项: Kudu集群对时间同步极其严格

6、DataFrame与Dataset、RDD区别 RDD叫做弹性分布式数据集 与RDD类似,DataFrame是一个分布式数据容器,但是DataFrame不是类型安全的。 DataSet是DataFrame API的一个扩展,是Spark最新的数据抽象,结合了RDD和DataFrame的优点

RDD 特性有哪些??你是如何理解RDD的??? RDD是分布式弹性数据集, 为什么Spark计算比较快,与MapReduce相比较优势是什么?? 基于内存计算 SparkSQL中优化有哪些???使用常见函数有哪些???

7、Impala 分析引擎

Impala架构,实现目的,目前架构如何

在这里插入图片描述
在这里插入图片描述

Hue与Impala集成

8、离线数仓 数仓分层如何划分呢???为什么要划分??为什么要如此设计??? 雪花模型和星型模型区别是什么????

雪花模型和星型模型区别在于是否围绕事实表,星型模型是一个事实表为中心,多个维度表环绕周围,雪花模型是它的延伸 9、ClickHouse 为什么选择,有哪些优势?? 查询速度超快 适合业务场景 10、SparkSQL外部数据源实现(难点) Kudu +ES +Ck

12、业务线:你完成什么,你做了什么,你遇到什么问题,你是如何解决的????

离线数仓采用的的技术是kudu+SparkSql离线计算,使用azkaban进行定时调度;也使用了kudu和 impala进行即席查询,数仓分为三层,第一层: ODS 层,原始数据存储层、第二层: DWD 层,数据仓库明细层、第三层: DWS 层,数据服务层。 每个主题报表开发,分为三层管理数据,其中DWD层和DWS层需要编写SparkSQL程序,业务处理: DWD层程序开发: 从Kudu表加载ODS层事实表数据和维度表数据,按照关联字段,进行拉宽操作,最后存储到 Kudu表 技术: Kudu -> SparkSQL -> Kudu DWS层程序开发: 从Kudu表加载DWD层宽表数据,按照指标需要进行计算,最终存储到Kudu表中,以便使用 技术: Kudu -> SparkSQL -> Kudu 对整个物流离线数仓共分为5个主题开发: 主题:快递单主题、运单主题、仓库主题、车辆主题、用户主题 快递单主题: 快递单数:总快递单数 最大/最小/平均快递单数: 这三个指标分别从各类客户、各渠道、各网点、各终端,4个维度分析事实表:快递单表 维度表:客户表、快递员表、包裹表、网点表、公司网点关联表、公司表、区域表、客户地址关联 表、客户地址表、字典表

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2021-08-02 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档