文章/答案/技术大牛

发布

首页视频011_数仓概念-集群规模

011_数仓概念-集群规模

2022-12-022022-12-02 16:02:25播放43

点赞0 收藏 0

3.尚硅谷大数据学科--项目实战/尚硅谷大数据项目之Flink实时数仓3.0/视频/011_数仓概念-集群规模.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
那刚刚啊，我们知道了这个服务器应该怎么选择了，哎，是选择物理机呢，还是云主机呢？那么现在问题又来了，不管是物理机还是云主机，我们要选买啊，那不管是物理机还是云主机，那我们购买多少台呢？啊，我是买一台啊两台啊三台啊。还是买十台啊八台呀啊，那有同学说，那我们在hello 102103104，那以后生产环境当中，我们就购买三台就完事了呗，哎，跟着我们学习的这个环境来走，那以后呢，工作起来也比较方便好，那到底买三台行不行呢？由谁说了算呢？这个事儿大家思考一下啊，应该由谁说了算比较合适啊，那怎么思考呢？大家想一想，你说我们购买完这个服务器啊。它是用来干嘛的呢？我们购买服务器的最终目的是用来干嘛的，是不是就两个事儿啊，用来存储。
01:02
数据还有计算数据的是不是就这么两个字，那存储用的是谁？用的是磁盘啊，那计算呢，用的是CPU和内存，CPU和内存好，那也就是说我们买多少台服务器跟谁相关呢？是不是跟我们的数据量相关呢？哎，归根结底它还是跟我们的数据量相关，我们有多少数据，那我们就购买多少服务器就完事了呗。好了，那接下来我们看一看集群规模的选型啊，我们买多少台服务器，那购买多少台服务器刚刚说了是跟数据量相关，那这个数据量每个公司有多少呢？哎，那他肯定是不一定了，那当我们到一个公司要搭建大数据集群的时候，首先你要问一问你的领导，或者问一问业务方，诶咱们公司有多少数据量呢？诶，那他肯定会给你一个每呃。
02:02
每天的这么一个数据量，然后我们就要开始进行一个预估了，好了啊，那我们做一个假设吧，每台服务器是8G啊，120G内存，这是一个相对来说配置还不错的这服务器了啊啊。那我们每天呢，有100万人，那数据量是怎么产生的呢？首先要知道数据量是不是由用户来产生的呀，啊用户来到我们的网站来进行点赞，评论，收藏，然后会产生这些数据，那假设我们每天呢，有100万个用户使用我们的这个网站啊，每天的日活呗，100万，那每个人平均他产生100条数据。好了，那么每天就是100万乘以100条，等于一个亿，每天是1亿条数据，哎，数据量呢，已经上亿了，哎，还是规模还不错啊啊。那一一亿条数据，我们每一条数据，那这1亿条数据它一共能占多少磁盘空间呢？啊，每天1亿条啊，我们假设每条日志的大小是1KB，那1KB的大小难道每条日志都是1K吗？哎，不一定，你像有的是0.5K啊，有的是0.6啊，有的是2K啊，2KB的还有3KB的啊，这个1KB啊，只是我们取一个中间值，平均值，其实业界上啊，差不多每个公司的数据平均都是1KB左右啊，那1亿条数据1KB也就是1亿KB呗，那1KB除以三个零变成。
03:39
这个MB再除以三个零变成GB啊，你看除以1024，再除以个1024，那约等于啊，每天有100G的数据，那我们就买100个G的服务器吗？诶，它也不行了，你像我们的笔记本电脑，现在磁盘空间都已经1T了吧，都已经1T了啊，而且这还是什么呢？啊，有有些同学这一器都是固态硬盘啊。
04:06
那不能买这个100G的磁盘空间，那我们买多大的呢？好，我们要进行一个预估，那多少呢？我们打算呢，半年内不扩容，那半年不扩容的话，每天100G啊，乘以个180天，最终等于18T的数据啊，那我们就买18T的这个服务器吗？你看3824，诶买三台差不多两台半三台啊也不行，为什么呢？想一个问题啊，我们的数据最终是要存储在哪啊啊有实时数仓和离线数仓，那么实时数仓我们也有一部分数据啊，离线数仓我们也有一部分数据，那不管是实时出仓还是离线出仓，我们是不是都有一个叫做副本的这么一个概念嘛。那副本我们哈杜的副本是多少啊，默认啊，不是默认哈杜的副本我们是不是要设置成三份啊，哎，让它达到一个高可用的这么一个效果，那三份的话，18T乘以一个三，哎，也就是54T的数据了啊，需要这么多啊，需要这么大的福气了，那这样那行不行呢？好，那你说半年54T它能够吗？我们想想啊，我们现在是什么呢？每天日活100万，你说有没有这么一个可能？
05:28
我们运行着运行着，哎，我们的项目那有每天日活100万，半年之内咔，变成200万，那两百万了，你说这54T还用吗？可能三个月他就已经不够用了，那难道我们就买这54个T，到时候再买吗？哎，也不行啊，我们呢，要提前给他做出这么一个预算，也就是我们还要给他留一个20%~30%的预留。好，那么最终一算下来啊，我们需要77T的这么一个磁放空间，那77T你看我们每一台是多少，是8T啊，那它要除以一个八啊，等于九点多啊，十台服务器呗，啊，十台服务器正好，诶你看十台服务器刚刚好，而且呢，还能剩三个T左右呢，好，那我们就买十台服务器嘛，你看这么算起来正好啊，哎，其实我们还不够啊，你看啊，我们再往下算，我们在这个地方之前是不是说过呀，数仓分成个OD sdwd，哎，然后等等等等。
06:36
那在ods层它就有一份完整的数据了，乘三吧，DWD也乘三，那每一层都乘以三，哎，只不过呢，接下来的每一层数据量就少了，ADS层的数据更少，它就是最终的指标嘛，这个数据量非常非常的小啊，但它也是需要有数据的吧啊，那再考虑数仓分层的话。
07:00
这个数据量是不是又变大了，又变大了。那再有啊，我们的业务有可能增值，我之前是统计80个指标啊，一共是有这么多数据，那我我这个指标的数量我就不增加了吗。我未来很有可能在统计100个指标啊，半年之内我扩大成200个指标了，也有可能啊，那这个数量一扩大了，我们存储的这个压力是不是就更大了呀？好了，那我这个是不是还得需要更多的磁盘空间呀？啊，那好了，那我们在学习卡do的时候，或者是其他的组件啊，你像卡不卡呀也好，还有其他的组件，嗯，只要是带存储的组件，应该都有这么一个概念吗？叫什么呢？叫压缩。啊有压缩，我们学习哈的时候肯定有压缩吧，那压缩之后，我们之前算的这些都白算了。哎，都摆算，都得重新计算了，为什么呢？之前我们说每天产生多少啊，是100G的数据吧，存储到哈杜了啊，如果我们开启了压缩的算法，那么每天100G，最终啊，它也就剩下五到十个G了，就变成这么点啊，这就是开启压缩的一个好处，那同学现在可能对压缩还没有什么概念啊，压缩在我们大数据领域应用的非常广泛，几乎。
08:28
啊，这些存储的组件我们都要考虑压缩好，那么最终我们应该买多少台服务器呢？啊，现在问题来了，我们应该买多少台服务器呀？啊，其实啊，如果说每天有100G左右的数据，哎，我们三台服务器半年的时间啊足够了，三台服务器半年的时间足够了，那如果说你想做一个长远的打算，五到十台服务器，五到十台服务器做一个一到两年的打算啊，一到两年的打算完全没问题啊OK，你像十台服务器啊，你像呃，绝大部分的中小型公司，十台服务器，绝大部分的中小型公司啊，它足够了啊OK啊，这也是我们集群规模的一个选型啊，购买多少台服务器好啊，到这儿我暂停一下。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据项目之Flink实时数仓3.0

（11/185）

3分48秒

001_实时数仓_课程简介

500

2分38秒

002_数仓概念-数仓简介

420

11分47秒

003_数仓概念-数据分类

430

22分30秒

004_数仓概念-数仓总体介绍

430

4分48秒

005_数仓概念-项目需求分析

400

16分33秒

006_数仓概念-技术选型

390

10分53秒

007_数仓概念-系统数据流程

450

9分59秒

008_数仓概念-框架版本的选择

390

3分18秒

009_数仓概念-具体版本号选择

400

5分35秒

010_数仓概念-服务器选型

310

9分18秒

011_数仓概念-集群规模

430

2分43秒

012_数仓概念-集群资源规划

390

6分22秒

013_同步行为数据模拟-埋点简介

550

17分25秒

014_用户行为数据模拟-用户行为日志内容

520

9分32秒

015_用户行为数据模拟-埋点日志格式

650

15分56秒

016_用户行为数据模拟-克隆三台服务器

390

4分42秒

018_用户行为数据模拟-集群同步脚本

370

7分49秒

019_用户行为数据模拟-免密登录配置

350

8分54秒

020_用户行为数据模拟-安装JDK

400

4分23秒

021_用户行为数据模拟-Linux环境变量说明

420

15分32秒

022_用户行为数据模拟-模拟数据

430

58分32秒

023_用户行为数据采集-hadoop安装

340

20分6秒

024_用户行为数据采集-Hadoop项目经验

390

11分42秒

025_用户行为数据采集-Zookeeper安装

400

14分12秒

026_用户行为数据采集-Kafka安装

370

5分9秒

027_用户行为数据采集-Flume安装

380

35分53秒

028_用户行为数据采集-Flume的KafkaChannel

370

1时11分

029_用户行为数据采集-采集Flume配置

270

10分7秒

030_业务数据采集-电商业务简介

350

38分11秒

031_业务数据采集-电商业务表结构

400

23分27秒

032_业务数据采集-业务数据模拟

430

2分54秒

033_业务数据采集-业务数据通道

370

21分15秒

034_业务数据采集-Maxwell简介

350

33分26秒

035_业务数据采集-Maxwell配置

440

21分19秒

036_业务数据采集-Maxwell使用

400

3分32秒

037_业务数据采集-采集通道maxwell配置

400

2分14秒

038_实时数仓数据同步-实时数仓同步数据

470

16分43秒

039-分层介绍-离线数仓回顾

390

22分47秒

040-分层介绍-实时数仓分层-处理&存储框架概述

440

21分39秒

041-分层介绍-实时数仓分层-DIM层框架选择

440

14分40秒

042-分层介绍-实时数仓分层-DWS&ADS层框架选择

350

11分42秒

043-分层介绍-实时数仓分层-架构说明

320

16分57秒

044-建模理论-范式理论-关系型数据库

420

17分32秒

045-建模理论-维度建模-大数据数仓

420

8分32秒

046-建模理论-维度建模-事实表&维度表&构建数仓流程

400

4分48秒

047-开发环境-集群环境准备

380

9分54秒

048-开发环境-IDEA环境准备

390

4分58秒

049-ODS层-日志数据采集-测试

340

4分30秒

050-ODS层-业务数据采集-测试

370

11分58秒

051-每日回顾

390

8分33秒

052-DIM层-需求分析

410

7分19秒

053-DIM层-问题&解决思路提出

370

5分51秒

054-DIM层-优化1方案讨论

400

13分15秒

055-DIM层-优化2方案讨论

350

20分1秒

056-DIM层-优化2实施讨论

370

14分56秒

057-DIM层-思路整理

330

15分35秒

058-DIM层-代码编写-流程梳理&获取执行环境

400

15分16秒

059-DIM层-代码编写-Kafka消费者工具类封装

380

16分33秒

060-DIM层-代码编写-过滤脏数据

330

31分43秒

061-DIM层-代码编写-配置信息表-字段讨论&说明

380

10分10秒

062-DIM层-代码编写-配置信息表-准备工作

350

7分2秒

063-DIM层-代码编写-使用FlinkCDC读取配置信息表创建流

410

13分44秒

064-DIM层-代码编写-构建配置信息广播流&与主流连接

390

6分3秒

065-DIM层-代码编写-连接流处理逻辑分析

410

37分7秒

066-DIM层-代码编写-处理广播流数据

400

27分26秒

067-DIM层-代码编写-处理主流数据

420

15分58秒

068-DIM层-代码测试

320

21分39秒

069-每日回顾

340

16分22秒

070-DIM层-将数据写出-JdbcSink分析

350

12分27秒

071-DIM层-将数据写出-自定义Sink-创建连接池

350

31分16秒

072-DIM层-将数据写出-自定义Sink-拼接SQL&执行

380

13分37秒

073-DIM层-将数据写出-代码测试

320

24分54秒

074-DWD层-整体介绍&方案说明

390

15分0秒

075-DWD层-流量域-未加工事实表-需求分析

410

19分38秒

076-DWD层-流量域-未加工事实表-思路分析

400

8分54秒

077-DWD层-流量域-未加工事实表-代码编写-时间工具类

330

13分57秒

078-DWD层-流量域-未加工事实表-代码编写-消费&过滤&分组数据

350

16分15秒

079-DWD层-流量域-未加工事实表-代码编写-新老访客标记校验

270

23分3秒

080-DWD层-流量域-未加工事实表-代码编写-分流

390

20分59秒

081-DWD层-流量域-未加工事实表-写出数据&测试

370

10分40秒

082-每日回顾

440

6分59秒

083-DWD层-流量域-未加工事实表-整体测试

350

14分6秒

084-DWD层-流量域-独立访客明细表-需求分析

320

21分5秒

085-DWD层-流量域-独立访客明细表-思路分析

360

6分42秒

086-DWD层-流量域-独立访客明细表-代码编写-获取&过滤&转换数据

380

8分57秒

087-DWD层-流量域-独立访客明细表-代码编写-按照Mid去重&写出到Kafka

260

26分44秒

088-DWD层-流量域-独立访客明细表-代码编写-添加状态TTL

300

8分5秒

089-DWD层-流量域-独立访客明细表-代码测试

360

17分0秒

090-DWD层-流量域-跳出明细表-需求分析&思路一

320

13分56秒

091-DWD层-流量域-跳出明细表-思路二

330

20分21秒

092-DWD层-流量域-跳出明细表-思路三

340

28分0秒

093-DWD层-流量域-跳出明细表-代码编写

360

24分37秒

094-DWD层-流量域-跳出明细表-代码测试

380

10分1秒

095-Flink基础知识扩展-说明

420

12分46秒

096-Flink基础知识扩展-WindowJoin-介绍

350

31分22秒

097-Flink基础知识扩展-IntervalJoin

420

21分51秒

098-Flink基础知识扩展-FlinkSQLJoin-官网说明&InnerJoin编码测试

370

29分42秒

099-Flink基础知识扩展-FlinkSQLJoin-外连接测试

310

18分29秒

100-Flink基础知识扩展-FlinkSQLJoin-LookUpJoin说明&构建维表

420

100

20分46秒

101-FlinkSQLJoin-LookUpJoin编码-构建事实表&关联测试

410

101

11分12秒

102-每日回顾

370

102

7分31秒

103-DWD层-加购事实表-需求分析&思路整理

390

103

24分23秒

104-DWD层-加购事实表-DDL构建topci_db表

450

104

21分24秒

105-DWD层-加购事实表-过滤出加购数据

360

105

28分32秒

106-DWD层-加购事实表-编码完成&测试

380

106

27分23秒

107-DWD层-订单事实预处理表-需求分析&获取原始表和LookUp表

410

107

24分53秒

108-DWD层-订单事实预处理表-过滤出4张表&测试

360

108

29分55秒

109-DWD层-订单事实预处理表-关联5张表&测试

330

109

26分18秒

110-DWD层-订单事实预处理表-将数据写出&测试

300

110

18分36秒

111-每日回顾

300

111

40分2秒

112-DWD层-下单事实表

390

112

22分1秒

113-DWD层-取消订单事实表

370

113

36分56秒

114-DWD层-支付成功需求

400

114

14分34秒

115-DWD层-退单需求

280

115

17分45秒

116-DWD层-退款成功需求

360

116

21分10秒

117-DWD层-优惠券相关需求

430

117

16分56秒

118-DWD层-收藏商品、评价、用户注册需求

390

118

15分30秒

119-DWS层-整体介绍

370

119

33分4秒

120-DWS层-关键词需求-需求分析&工具类封装

260

120

33分14秒

121-DWS层-关键词需求-代码编写2

340

121

20分51秒

122-DWS层-关键词需求-代码编写-开窗聚合&ClickHouse表引擎选择

360

122

25分25秒

123-DWS层-关键词需求-编码完成&测试

340

123

7分21秒

124-每日回顾

430

124

18分4秒

125-DWS层-关键词需求-代码编写-ClickHouse建表&工具类封装-1

370

125

26分10秒

126-DWS层-关键词需求-代码编写-ClickHouse工具类封装-2

460

126

17分39秒

127-DWS层-关键词需求-代码编写-ClickHouse工具类封装-3

400

127

3分13秒

128-DWS层-关键词需求-代码最终测试

410

128

26分53秒

129-DWS层-版本渠道地区访客类别粒度页面浏览需求-需求分析&编码开始

400

129

27分11秒

130-DWS层-版本渠道地区访客类别粒度页面浏览需求-代码编写2

320

130

30分14秒

131-DWS层-版本渠道地区访客类别粒度页面浏览需求-代码测试

360

131

11分12秒

132-每日回顾

360

132

11分10秒

133-DWS层-页面浏览需求-需求分析&思路整理

360

133

8分16秒

134-DWS层-页面浏览需求-消费&转换&过滤数据

290

134

26分42秒

135-DWS层-页面浏览需求-编码完成&测试

350

135

16分44秒

136-DWS层-用户登录需求-需求分析&思路整理

450

136

29分37秒

137-DWS层-用户登录需求-编码&测试

360

137

21分41秒

138-DWS层-用户注册需求

330

138

27分27秒

139-DWS层-加购需求

390

139

6分52秒

140-每日回顾

360

140

24分56秒

141-DWS层-支付成功需求-需求分析

290

141

30分10秒

142-DWS层-支付成功需求-去重思路

290

142

32分0秒

143-DWS层-支付成功需求-思路整理&编码开始

320

143

34分42秒

144-DWS层-支付成功需求-编码完成&测试

360

144

32分7秒

145-DWS层-下单需求-需求分析&代码编写

350

145

25分35秒

146-DWS层-下单需求-编码完成&测试

370

146

13分42秒

147-每日回顾

370

147

10分38秒

148-DWS层-用户SPU粒度下单需求-需求分析-1关联维表

320

148

23分5秒

149-DWS层-用户SPU粒度下单需求-需求分析-2订单ID去重

320

149

21分16秒

150-DWS层-用户SPU粒度下单需求-需求分析-3订单ID去重

440

150

26分44秒

151-DWS层-用户SPU粒度下单需求-思路整理&代码编写

330

151

27分28秒

152-DWS层-用户SPU粒度下单需求-JDBCUtil封装开始

360

152

20分54秒

153-DWS层-用户SPU粒度下单需求-JDBCUtil封装完成&测试

430

153

17分41秒

154-DWS层-用户SPU粒度下单需求-DimUtil封装&测试

430

154

30分48秒

155-DWS层-用户SPU粒度下单需求-关联维表优化1-旁路缓存-说明

380

155

42分20秒

156-DWS层-用户SPU粒度下单需求-关联维表优化1-旁路缓存-编码&测试

340

156

17分0秒

157-每日回顾

420

157

16分20秒

158-DWS层-用户SPU粒度下单需求-优化方案2-异步IO-说明

320

158

13分57秒

159-DWS层-用户SPU粒度下单需求-优化方案2-异步IO-编码介绍

350

159

26分41秒

160-DWS层-用户SPU粒度下单需求-优化方案2-异步IO-异步函数准备工作

370

160

21分37秒

161-DWS层-用户SPU粒度下单需求-优化方案2-异步IO-获取维表信息参数讨论

310

161

17分31秒

162-DWS层-用户SPU粒度下单需求-优化方案2-异步IO-函数完成

380

162

17分50秒

163-DWS层-用户SPU粒度下单需求-优化方案2-异步IO-函数测试

380

163

33分40秒

164-DWS层-用户SPU粒度下单需求-后续&测试

300

164

38分31秒

165-DWS层-省份粒度下单需求

330

165

44分17秒

166-DWS层-品牌品类用户粒度退单需求

370

166

30分55秒

167-ADS&数据可视化层-课程介绍

330

167

31分33秒

168-ADS&数据可视化层-数据接口模块-构建

310

168

21分18秒

169-ADS&数据可视化层-数据接口模块-GMV需求-编码完成）

370

169

17分37秒

170-ADS&数据可视化层-数据接口模块-GMV需求-测试

350

170

11分15秒

171-ADS&数据可视化层-数据接口模块-渠道日活需求-需求分析

440

171

29分35秒

172-ADS&数据可视化层-数据接口模块-渠道日活需求-代码完成

320

172

16分50秒

173-ADS&数据可视化层-数据接口模块-渠道日活需求-测试完成

370

173

25分34秒

174_ADS&数据可视化层（数据接口模块测试已完成&其他需求接口）

310

174

3分5秒

175-Flink优化-课程介绍

370

175

30分37秒

176-Flink优化-资源优化

440

176

23分43秒

177-Flink优化-反压处理

360

177

14分59秒

178-Flink优化-数据倾斜-现象介绍&KeyBy前数据倾斜

520

178

18分17秒

179-Flink优化-数据倾斜-KeyBy后直接聚合

450

179

15分49秒

180-Flink优化-数据倾斜-KeyBy后开窗聚合

550

180

6分36秒

181-Flink优化-KafkaSource

490

181

21分36秒

182-Flink优化-FlinkSQL

360

182

5分2秒

183-实时数仓总结-分层

400

183

10分1秒

184-实时数仓总结-ODS&DWD层

280

184

4分33秒

185-实时数仓总结-DIM层

400

185

16分59秒

186-实时数仓总结-DWS&ADS层

380

011_数仓概念-集群规模

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐