大数据分析中,主要分析引擎:
大数据项目:业务数据量大(传统数据库RDBMS无法满足需求)和数据分析复杂性提高。
课程安排如下所示:主要分为3个部分内容
整个项目来说,属于Lambda架构项目,既有离线分析,又有实时分析,使用SparkSQL和Structured
Batch Layer
,离线分析Speed Layer
,实时分析Server Lay
,提供离线分析和实时分析结果数据,便于查询和使用整个物流项目技术亮点:
主要讲解2个方面的内容:物流项目概述
项目业务核心流程,物流快递行业发送快递流程
项目逻辑架构
项目数据流转图和核心业务剖析
在整个中,最后给大家展示:实时大屏统计分析,实时性要求不是很高,分钟基本延迟。 实时大屏每隔10秒,刷新一下记录,从ClickHouse 数据库中查询分析数据,进行大屏展示。
1)、行业背景介绍: 自从国内电商购物节开始以后,每年用户电商APP购买物品增加,快递数量指数级别增长。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RadClEeU-1625444773065)(/img/1615516690862.png)]
从实时OLAP数据库
ClickHouse
表中读取数据,大屏每隔10秒查询数据库表,将数据展示前端大屏,具体如下图所示:
1615517773800
针对实时大屏来说:
上述为整个实时大屏展示技术流程图,大家务必记清楚。
了解针对物流快递行业来说,业务流程是如何进行的:从客户A下单开始,一直到,客户B收到快件结束。
快递业务流程:
接下来,看一下整个物流项目:逻辑技术架构图,项目中每个步骤使用什么技术,技术选项(为什么选这个技术框架)。
AdHoc
:即席查询,即席查询(Ad Hoc)是用户根据自己的需求,灵活的选择查询条件,系统能够根据用户的选择生成相应的统计报表。即席查询与普通应用查询最大的不同是普通的应用查询是定制开发的,而即席查询是由用户自定义查询条件的。 即席查询,在大数据领域中,比较普遍需求,随时依据用户的需求,查询分析海量数据。
在神策数据产品中,用户自定义查询,就是所说的即席查询,底层使用Impala分析引擎。
思考:为什么选择这些技术框架,原因是什么???
任何一个大数据项目,首先数据流转图:项目数据从哪里来的,存储到哪里去,进行什么应用分析。
针对每个项目来说,要清楚一点,技术框架选择(为什么选择)。
本项目使用Structured Streaming开发实时部分,同时离线计算使用到SparkSQL,而Spark的生态相对于Flink更加成熟,因此采用Spark开发。
为什么不使用SparkStreaming进行实时数据ETL转换存储呢??而是使用StructuredStreaming...
框架软件版本:主要基于
CDH 6.2.1版本
(版本较新),将来编写简历时,此版本不可用 使用CM安装CDH,采集单机部署,提供node2.itcast.cn
虚拟机上,全部安装完毕,无需到操作。
新框架:Kudu和Impala都属于CDH产品,由于都是Cloudera公司开发的框架。
在实际项目开发中,除了依据业务开发应用(实时ETL数据转换、报表分析、即席查询等)之外,比如集群规模、业务数据量、开发团队人员配置等等。 编写简历时,每个项目【非功能描述】准备好,牢记于心。
不差钱,金融相关公司,使用物理机最好。
数据量:物流项目来说,核心数据【快递单】和【运单】等相关数据
在实际项目,服务器来说,系统盘(安装操作系统)和数据盘(存储数据)时分开的,
在项目该物流项目时,有哪些技术亮点:技术框架属于目前大数据技术中比较新的框架,使用较多的
客快物流大数据项目学习中,需要2台服务器(虚拟机)分别构建服务器环境,拓扑图如下:
因服务器资源有限,该项目采用两台服务器进行演示学习,每台服务器配置如下:
需要在windows映射配置文件,配置上述主机名和IP地址隐射:
C:\Windows\System32\drivers\etc\hosts