文章/答案/技术大牛

发布

首页视频058-采集集群-要求

058-采集集群-要求

2022-12-022022-12-02 16:02:27播放32

点赞0 收藏 0

3.尚硅谷大数据学科--项目实战/尚硅谷大数据项目之电商数仓5.0/视频/058-采集集群-要求.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
嗯，好了，各同学，那接下来呢，给大家简单的说一下，就是咱们那个采集项目那个集群的一个具体的要求，对吧？咱们其实说白了主要就是保证那三条数据通道是通的就行啊，我这说的是三条啊，应该是哪三条啊，日志是不是算一条对吧？那业务数据当中的全量表我们是不是算一条，增量表是又算一条对吧？三条数据通道咱们把这他们仨搞定就行，来一个一来啊，咱先说日志，日志那个通道，呃，是不是整个涉及到所有环节就是这么多呀，对吧？啊，那这些环节呢，你要想去测一下它通不通，这个怎么能测出来呀？首先你得先把这个通道涉及到的进程都骑起来吧，对不对？那首先呢，我们得保证是不是卡不卡，得先骑起来，当然卡不卡要先起的话，得先起谁啊CK对吧，他得骑起来，然后海度我是不是必须得骑起来，因为你最终得把数据写到HS嘛，对吧，哎，这些该写都骑，那之后呢，是不是这个flu也要起来啊，对吧？大家回忆一下我们这个flu是不是咱们给他专门准备了一个启停脚本啊，对吧，就是为了方便大家启停，那前面这两个flu我们应该是用。
01:00
用一个叫做F1的脚本去控制了，对吧？那这个呢，是一个叫做F2的脚本去控制了，诶你先把这些东西用脚本都给它提起来，提起来之后，那怎样去保障，或者怎样去测试这个通道有没有通道，咱们是不是生成一个新的日志文件就完事了，对吧？我们执行哪个脚本能生成日志文件来着Lg.SH对吧？log.sh诶你执行一下这个命令之后呢，就会在二和三这两台节点是不是同时生成新的日志啊，对吧？哎，如果我们这个通道没问题，那最终数据是不是就会出现在HDF上对不对？好，那这个大家应该得会算，行诶那现在假定啊，诶我这个数据它没出现在HDFS上，那这时候咱是不是得去排查问题啊，对吧？让大家知道怎么去排查问题吧。你比如说我这没通对不对，这个怎么怎么去解决二分查找对吧，你先去看卡夫卡有没有数据对吧？卡夫卡有数据，那问题是不是就出在这儿了对吧？卡夫卡每个数据是不是可能就出在前面了，对吧？怎样去看卡夫卡有没有数据来着？哎，对，你是不是开一个卡夫卡的那个客户端的消费者就行了，对吧，就是那个卡夫卡的conso consumer对吧？哎，Cons consumer你把它打开，然后呢，消费一下咱们这个目标的topic对吧，如果能消费到那就说明有数据，消费不到那就说明没数据吧，对吧？然后你们再去看到底是哪出问题了，有问题咱们再去看日志在排查，那就完事了，诶，这是日志这个通道它的一个具体要求，好，那现在呢，我们再去看一下业务表的这个通道的要求，业务表呢，咱们分为两种，一种是全量，一种是增量，对吧，咱先看全量这个全的这个其实好测对吧，这个怎么就能测出来，怎么能测这个有没有通啊。
02:34
是不是，首先那你得保证把搜Q里边是有数据的对吧？然后呢，是不是使用data叉把数据直接一同步就就写在HTS了，对吧？H有就说明是通的，没有是不是就不同了对吧？好，那怎样启动这个data叉的那个同步任务，大家还记得吗？Data叉如果是用它原生的那个启动命令，是不是得写一个Python，然后找到那个data叉的PY，然后再给他传一个杰森配置文件吧，这个大家还有印象没有，全忘了，跟没学过似的啊，这个data叉怎么用啊？Data叉它其实用起来很简单啊，回忆一下啊，Data叉里边是不是有一个呃配置文件需要我们去编写啊对吧？那个配置文件是一个接色文件吧？接色文件里边我们最最重要的内容是什么来着？是不是就配一个reader，还再加来再来一个writer啊对吧？OK，咱们你需要去给每个表写一个这样的配置文件对吧？那配置文件写好之后怎样去启动这个同步任务呢？是不是执行一个Python命令对吧？Python找找到data叉安装目录下边那个并目录里边的data叉，点PY对吧，之后呢，再把这个接词文件给他，他是不是就会去同步咱们这个数据来对吧？诶它原生的这个同步命令是这样的，但是我们实际上呢，是不是做了一个封装啊，对吧？我们把这一大堆表的这个同步命令是不是都封装到了一个shell脚本当中啊，把那个脚本的名字是什么，大家还记得吗？
03:50
找一下啊来，那这个脚本的名字应该叫做my circle to HD FS负点sa是吧？这是就是我们写的那个date上的数据同步脚本对不对，OK啊，那这个master就是咱们的数据源ADFS就是目的地，这个负代表的就是啥呢？是不是全量同步啊，对吧？就这个意思，OK，你用这个脚本是不是就测一下就完事了，对吧？所以说实际上这个全量表要想测试很简单，你就只需要保证MYS里边这个是有数据的HTFS你给它提起来，然后呢，你执行一下刚才咱们那个对叉那个脚本，如果数据能出现在HTS，是不是就表明它已经通了呀，对吧，就表明是没有问题的，哎，好，那接下来呢，我们继续往下看，再往下呢，我们来看一下，呃，这个增量表的这这条通道，增量表这个通道相对全量表要复杂一点，对吧，它里边涉及到的环节比较多啊，里边有Maxwell卡夫卡对不对？好，那你要想测它，那你也得先怎么样呢。
04:44
怎样才能测出来呀？啊，怎样才能测出来很简单，你是不是也得先把这个通道起起来才行，对不对，起起来之后，那怎么去做呢？首先我得先起主开班，先起再起卡普卡对不对，然后呢，再写谁啊呃，再起咱们的这个，呃，或者mawell这个单不分前后啊，Mawell也起起来，然后呢，咱们也给他起来，整个通道是不是就起来了呀，对吧？好起来之后怎样测试这个通道有没有通呢？
05:09
怎样能测试这个通道有没有通？怎样能测试你像咱们那个日志，你之前怎么测的，是不是执行什么log.sh去测呀，对吧，那咱这怎么测呢？哎，其实你那怎么测都行啊，大家要知道啊，就是我们对于增量同步的表而言，那咱们再去真正的去做数据同步的时候，我们会在首次做一个全量，后续是不是在做增量啊，对吧？那首次做全量的时候，那问一下大家咱们使用的是什么功能来着，是Maxwell提用的bootp那个功能，对吧？没问题吧？OK，好，那完了之后，我们之前是不是也写了一个增量表的首日同步脚本啊。这个大家应该还记得吧，对不对，我往下走，诶我们是不是写了一个这样的脚本，叫做my circle to卡夫卡，然后呢，是INC一点SH2，对吧？买是咱们的数据源卡不卡呢？是目的地对不对？那完之后呢，INC是增量表一呢，是不是代表的是一个首日同步啊，对吧？诶是这样的，OK啊好，到这之后呢，我们实际上呢，就可以是不是利用一下这个脚本去测一下咱们这个增量表的通道是不是通的呀，对吧？这样的，那如果说那你把这个通道都提起来了，然后呢，你执行一下刚刚咱们那个首日全量同步的这个脚本对不对，完了之后，如果数据啊，如果通道是能通的，那这个数据是不是就会经过这个通道，最终写到HDFS的一个目标路径上，对吧？如果能出现，是不是代表咱们这个通道是通的啊，是这样，当然你可以用这个首日全量同步去测，你也可以用什么去测呢。
06:37
也可以用这个将来的每日的增量同步去测吧，为什么呢？因为不管是全量同步还是增量同步，对不对，那他们这走的都是什么呀。是不相同的这一个通道啊，对不对，他是不是都是经Maxwell到卡夫卡，再经到H的板子，对吧，所以说你这个用全量同步的那个脚本去测也行，或者说你用增量同步去测也行，增量同步怎么测呀？
07:02
很简单，你是不是只需要把这一个通道给它提起来，对吧？然后呢，干啥？我们再重新的往买思Q里边是不是写入一部分数据就行了，对吧？我们执行那个呃，生成数据的那个炸包是不就完事了，对吧？你执行一下加油杠这指向那个炸包，那包之后呢，是不是它会往这个买思库里边写数据，只要写数据就会生成人嘛，B浪G吧，没问题吧，因为数据变了嘛，就会有blo上，只要B上mawell是不是正常，就会拿那个blog，然后就把数据写到卡F卡写到最终到HTS，对吧？那它也会走这个通道，也就是说对于增量表而言，那咱们的首日全同步和每日增量同步，他们走的是同一个通道，对吧？所以说你只需要用其中一个测一下是不就完事了，对吧？哎，大家自愿，你用这个首日全量同步去测也行，你用这个增量同步去测也是可以的，都没问题啊，因为他们是同一个通道，一个没问题，另一个肯定也没问题啊好了，同学，那这个增量表这边呢，呃，它的一个具体要求我也就这个说完了啊，好了，那截止到现在呢，那咱们这个三条通道的一个具体要求我就说完了，然后大家呢，呃，自。
08:02
自己再去准备这个采集项目的集群的时候呢，你就按照这个要求去测试一下就完事了，都能成功那就OK了啊好，那视频我停一下啊。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据项目之电商数仓5.0

（57/199）

4分8秒

001_离线数仓_课程简介

480

2分38秒

002_数仓概念-数仓简介

420

11分47秒

003_数仓概念-数据分类

340

22分30秒

004_数仓概念-数仓总体介绍

440

4分48秒

005_数仓概念-项目需求分析

530

16分33秒

006_数仓概念-技术选型

400

10分53秒

007_数仓概念-系统数据流程

380

9分59秒

008_数仓概念-框架版本的选择

370

3分18秒

009_数仓概念-具体版本号选择

360

5分35秒

010_数仓概念-服务器选型

390

9分18秒

011_数仓概念-集群规模

460

2分43秒

012_数仓概念-集群资源规划

380

6分22秒

013_同步行为数据模拟-埋点简介

360

17分25秒

014_用户行为数据模拟-用户行为日志内容

380

9分32秒

015_用户行为数据模拟-埋点日志格式

480

15分56秒

016_用户行为数据模拟-克隆三台服务器

370

4分42秒

018_用户行为数据模拟-集群同步脚本

340

7分49秒

019_用户行为数据模拟-免密登录配置

410

8分54秒

020_用户行为数据模拟-安装JDK

370

4分23秒

021_用户行为数据模拟-Linux环境变量说明

270

15分32秒

022_用户行为数据模拟-模拟数据

360

58分32秒

023_用户行为数据采集-hadoop安装

410

20分6秒

024_用户行为数据采集-Hadoop项目经验

440

11分42秒

025_用户行为数据采集-Zookeeper安装

420

14分12秒

026_用户行为数据采集-Kafka安装

400

5分9秒

027_用户行为数据采集-Flume安装

390

35分53秒

028_用户行为数据采集-Flume的KafkaChannel

470

1时11分

029_用户行为数据采集-采集Flume配置

420

10分7秒

030_业务数据采集-电商业务简介

360

38分11秒

031_业务数据采集-电商业务表结构

370

23分27秒

032_业务数据采集-业务数据模拟

330

2分54秒

033_业务数据采集-业务数据通道

440

21分15秒

034_业务数据采集-Maxwell简介

360

33分26秒

035_业务数据采集-Maxwell配置

340

21分19秒

036_业务数据采集-Maxwell使用

350

3分32秒

037_业务数据采集-采集通道maxwell配置

340

2分14秒

038_实时数仓数据同步-实时数仓同步数据

460

3分22秒

039_离线数仓数据同步-用户行为数据同步通道

450

1时8分

040_离线数仓数据同步-用户行为数据同步flume配置

380

29分56秒

041_离线数仓数据同步-业务数据同步策略

360

17分41秒

042_业务数据采集-DataX简介

400

13分4秒

043_业务数据采集-DataX部署

460

58分10秒

044_业务数据采集-DataX案例

460

13分37秒

045_业务数据采集-DataX的HdfsWriter的Null值存储问题

510

9分32秒

046_业务数据采集-DataX参数调优

430

1时7分

047_业务数据采集-全量同步流程

360

46分48秒

048_业务数同步-增量同步流程

330

9分45秒

049_业务数据同步-集群总启停脚本

370

9分0秒

050_业务数据同步-Hive安装部署

360

11分58秒

051-数据仓库-概述

410

37分15秒

052-数据仓库-核心架构

410

19分50秒

053-建模方法论

410

26分52秒

054-建模方法论-ER模型-数据库规范化

440

8分33秒

055-建模方法论-ER模型-函数依赖

450

27分5秒

056-建模方法论-ER模型-三范式

410

18分2秒

057-建模方法论-维度模型-概述

420

8分11秒

058-采集集群-要求

320

23分55秒

059-维度模型-事实表-事务事实表-概述

430

12分22秒

060-维度模型-事实表-事务事实表-设计流程

440

10分44秒

061-维度模型-事实表-事务事实表-不足

420

31分3秒

062-维度模型-事实表-周期快照事实表

460

14分25秒

063-维度模型-事实表-累积快照表

460

15分42秒

064-维度模型-维度表-设计步骤

430

9分1秒

065-维度模型-维度表-确定维度属性-要点

440

9分34秒

066-维度模型-维度表-维度设计要点-规范化&反规范化

370

11分50秒

067-维度模型-维度表-维度设计要点-维度变化-全量表

450

20分6秒

068-维度模型-维度表-维度设计要点-维度变化-拉链表-制作和使用

500

9分17秒

069-维度模型-维度表-维度设计要点-多值维度

560

10分6秒

070-维度模型-维度表-维度设计要点-多值属性

520

6分54秒

071-维度模型-对同步策略的影响

450

27分1秒

072-设计-分层规划

510

23分29秒

073-设计-构建流程

390

26分36秒

074-构建流程-数据调研-业务调研

430

5分18秒

075-构建流程-数据调研-需求分析

470

13分27秒

076-构建流程-划分数据域

550

12分31秒

077-构建流程-构建总线矩阵&维度模型设计

750

31分15秒

078-构建流程-明确统计需求-指标体系

540

23分15秒

079-构建流程-明确统计需求-汇总模型设计思路

450

20分17秒

080-运行环境-说明

380

15分56秒

081-运行环境-Hive-on-spark-编译源码

400

45分20秒

082-运行环境-Hive-on-spark-部署

350

15分1秒

083-开发环境-使用说明

400

10分33秒

084-数据准备-日志

290

22分7秒

085-数据准备-业务-全量&增量

390

4分0秒

086-Hive-on-spark环境问题排查思路

460

12分45秒

087-ODS层-设计要点

400

6分47秒

088-ODS层-日志表-设计思路

290

21分16秒

089-ODS层-日志表-json表

430

23分7秒

090-ODS层-日志表-复杂数据类型

390

14分29秒

091-ODS层-日志表-建表语句

370

4分6秒

092-ODS层-日志表-数据装载

400

13分18秒

093-ODS层-日志表-数据装载脚本

370

21分51秒

094-ODS层-业务表-建表语句-全量&增量

400

16分59秒

095-ODS层-数据装载

430

3分13秒

096-DataGrip元数据显示异常问题说明

390

8分51秒

097-DIM层-维度模型规划

400

7分35秒

098-DIM层-设计要点

360

16分6秒

099-DIM层-商品维度表-确定主维表和相关维表

470

43分39秒

100-DIM层-商品维度表

450

100

32分42秒

101-DIM层-优惠券维度表

360

101

13分3秒

102-Hive元数据中文乱码问题说明

450

102

12分7秒

103-DIM层-活动维度

360

103

10分56秒

104-DIM层-地区维度

440

104

28分6秒

105-DIM层-日期维度

480

105

18分59秒

106-DIM层-用户维度-拉链表-建表语句

370

106

23分37秒

107-DIM层-用户维度-拉链表-数据装载-首日

450

107

53分13秒

108-DIM层-用户维度-拉链表-数据装载-每日-思路一

510

108

15分25秒

109-DIM层-用户维度-拉链表-数据装载-每日-思路二

430

109

12分5秒

110-DIM层-数据装载

380

110

8分2秒

111-DWD层-设计要求

420

111

12分51秒

112-DWD层-交易域加购事务事实表-建表语句

430

112

12分1秒

113-DWD层-交易域加购事务事实表-数据流向

470

113

9分10秒

114-DWD层-交易域加购事务事实表-数据装载-首日

400

114

32分20秒

115-DWD层-交易域加购事务事实表-数据装载-每日

380

115

24分31秒

116-DWD层-Hiveserver2-文件描述符问题说明

350

116

15分20秒

117-DWD层-交易域下单事实表

410

117

24分48秒

118-DWD层-交易域下单事实表-数据装载-首日和每日

470

118

8分40秒

119-DWD层-交易域取消订单事实表-建表语句

380

119

28分17秒

120-DWD层-交易域取消订单事实表-数据装载-首日和每日

370

120

21分26秒

121-DWD层-交易域支付成功事实表-建表语句

370

121

20分17秒

122-DWD层-交易域支付成功事实表-数据装载-首日和每日

430

122

22分31秒

123-DWD层-交易域退单事实表

380

123

24分46秒

124-DWD层-交易域退款成功事实表

350

124

18分13秒

125-DWD层-交易域购物车周期快照表

440

125

28分10秒

126-DWD层-工具域优惠券业务分析

440

126

10分58秒

127-DWD层-互动域收藏商品事务事实表

470

127

18分39秒

128-DWD层-互动域评价事务事实表

330

128

24分23秒

129-DWD层-流量域页面浏览事务事实表-建表语句

370

129

53分12秒

130-DWD层-流量域页面浏览事务事实表-数据装载

440

130

9分3秒

131-DWD层-流量域启动事务事实表

440

131

24分28秒

132-DWD层-流量域动作事务事实表

390

132

8分45秒

133-DWD层-流量域曝光事务事实表

420

133

20分48秒

134-DWD层-流量域错误事务事实表

360

134

34分6秒

135-DWD层-用户域用户注册事实表

400

135

23分27秒

136-DWD层-用户域用户登录事实表

490

136

2分39秒

137-DWD层-维度模型-小总结

410

137

7分59秒

138-DWD层-数据装载

310

138

35分4秒

139-DWS层-设计要点

410

139

19分6秒

140-DWS层-设计-构建指标体系

530

140

5分33秒

141-DWS层-设计-抽取派生指标

430

141

38分25秒

142-DWS层-设计-最近1日n日汇总表

460

142

14分43秒

143-DWS层-设计-人数重复计算问题-最近1日n日汇总表

470

143

29分9秒

144-DWS层-设计方案-设计V2.0

460

144

17分1秒

145-DWS层-设计方案-设计V3.0

390

145

16分42秒

146-DWS层-设计-历史至今-汇总表分析

360

146

31分10秒

147-DWS层-设计-历史至今-数据装载

390

147

7分3秒

148-DWS层-设计-总结

400

148

18分15秒

149-DWS层-交易域用户商品粒度订单最近1日汇总表

370

149

6分27秒

150-DWS层-交易域用户商品粒度订单最近n日汇总表

470

150

7分5秒

151-DWS层-交易域用户商品粒度退单最近1日和n日汇总表

440

151

10分6秒

152-DWS层-交易域用户粒度订单汇总表

460

152

5分26秒

153-DWS层-交易域用户粒度加购汇总表

320

153

3分46秒

154-DWS层-交易域用户粒度支付汇总表

430

154

6分42秒

155-DWS层-交易域省份粒度订单汇总表

390

155

7分11秒

156-DWS层-交易域用户粒度退单汇总表

440

156

11分29秒

157-DWS层-流量域会话粒度页面浏览最近1日汇总表

340

157

6分59秒

158-DWS层-流量域访客页面粒度页面浏览汇总表

380

158

38分29秒

159-DWS层-交易域优惠券粒度订单最近n日汇总表

330

159

9分15秒

160-DWS层-交易域活动粒度订单最近n日汇总表

420

160

6分27秒

161-DWS层-交易域用户粒度订单历史至今汇总表

460

161

2分34秒

162-DWS层-交易域用户粒度支付历史至今汇总表

410

162

17分3秒

163-DWS层-用户域用户粒度登录历史至今汇总表

520

163

15分9秒

164-DWS层-数据装载-最近1日n日历史至今

380

164

1时8分

165-ADS层-各渠道流量统计

360

165

27分8秒

166-ADS层-用户路径

370

166

23分41秒

167-ADS层-用户路径-需求实现

360

167

9分6秒

168-ADS层-用户变动统计-需求说明

350

168

13分33秒

169-ADS层-用户留存率-需求说明

260

169

19分46秒

170-ADS层-用户变动统计-需求实现

350

170

28分41秒

171-ADS层-用户留存率-需求实现-2种思路

310

171

2分41秒

172-ADS层-用户新增活跃统计-需求说明

420

172

13分45秒

173-ADS层-新增活跃用户统计-需求实现

450

173

7分55秒

174-ADS层-漏斗分析-需求说明

370

174

3分15秒

175-ADS层-新增交易用户统计-需求说明

350

175

5分34秒

176-ADS层-品牌复购率-需求说明

270

176

40分39秒

177-ADS层-漏斗分析-需求实现

320

177

8分23秒

178-ADS层-新增交易用户统计-需求实现

350

178

25分58秒

179-ADS层-品牌复购率-需求分析

310

179

2分45秒

180-ADS层-各品牌交易统计-需求说明

390

180

4分15秒

181-ADS层-购物车存量topN-需求说明

380

181

4分4秒

182-ADS层-交易综合统计-需求说明

310

182

25分10秒

183-ADS层-各品牌交易统计-需求实现

330

183

11分58秒

184-ADS层-购物车存量topN-需求实现

340

184

11分46秒

185-ADS层-交易综合统计-需求实现

350

185

7分25秒

186-ADS层-各省份交易综合统计

380

186

3分22秒

187-ADS层-补贴率统计

380

187

3分18秒

188-ADS层-数据装载

370

188

1时8分

189-报表数据导出-DataX

360

189

33分42秒

190-全流程调度-DS-核心架构

320

190

16分1秒

191-全流程调度-DS-部署模式及要求

420

191

16分4秒

192-全流程调度-DS-部署-数据库初始化

400

192

35分25秒

193-全流程调度-DS-部署-一键部署

480

193

27分10秒

194-全流程调度-DS-使用-安全中心

370

194

36分26秒

195-全流程调度-DS-使用-入门

520

195

1时15分

196-全流程调度-DS-使用-进阶

350

196

1时4分

197-全流程调度-集群模式&单机模式

400

197

1时1分

198-可视化-Suserset-安装部署

370

198

30分25秒

199-可视化-Suserset-完整流程

450

199

7分40秒

200-可视化-Suserset-完结

390

058-采集集群-要求

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐