文章/答案/技术大牛

发布

首页视频004_数仓概念-数仓总体介绍

004_数仓概念-数仓总体介绍

2022-12-022022-12-02 16:02:25播放43

点赞0 收藏 0

3.尚硅谷大数据学科--项目实战/尚硅谷大数据项目之Flink实时数仓3.0/视频/004_数仓概念-数仓总体介绍.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:02
那刚刚啊，我们说在我们的大数据平台当中，数据一共分为这么三类，用户行为数据，业务数据，以及爬虫数据啊爬虫数据你看我们不做啊，给他剔除了，那接下来我们看一看什么了啊，我们看一看我们的数据仓库的这么一个总体的流程啊，应该是什么样的，好，我先把这个PPT打开，打开PPT，然后呢，我们把这个打开。啊，接下来看一看啊，那这上面呢，有一个数仓的概念，哎，前面呢，我们也说了输仓啊，它是为了企业定制角色，提供数据支持的这么一个战略聚合，诶，然后帮助我们企业改进这个业务流程，提高产品质量，所以说数据啊，它的价值还是非常非常高的，那现在有这么一句话叫做得数据者得天下嘛啊哎。啊，那首先我们的数据分类一共有这么三类，用户行为数据、业务数据以及爬虫数据，那爬虫数据刚刚我们也说了，这个不做，那对于我们来说，我们要这个采集存储的就是用户行为数据和业务数据了，那用户行为数据我们说它是存储在文件当中的呀，业务数据我们也知道了，它是存储在my circleql当中的，那接下来我就要把这两类的数据给它采集到哪啊？哎，给采集到HDFS好了，那现在让你们来做，我们如何把文件当中的数据给它采集到HDFS呢？好，这个过程相信你们都会啊，用flu来做，哎，这个可以用来做，那业务数据呢，它是存储在my circleql的呀，哎，那他怎么能给它采集到HDFS呢？
01:51
那我们先想一想用能不能呢？啊，首先我们没有学过这个my circle source吧，默认的情况下它肯定是不能做这个事的，诶，但是有一个自定义source啊，自定义source我们是不是可以自定义一个买circle s，哎，那其实我硬要用来做这个事能不能啊，是不是也能啊，我们用这个自定义的source，那一直读取监控买circlel的这个数据库的变化吗？那我发现你这里有数据变化了，我就给你监控出来啊，那其实呢，一般我们不会用浮助来做这些事儿，哎，它不太合适，那除了这个之外，我们还可以怎么做呀？是不是可以用一个Java程序啊？哎，通过一个Java程序啊，左边用MYSQL的JDBC啊，读取MYSQL数据库表示数据，那右边呢？
02:42
我开启一个HDFS的客户端啊，Hdfs client，我一条一条的给你put上去就完事了呗，Put到HDFS，哎，通过一个Java程序啊，就可以来做这个事儿。那你说我们自己写的这个东西，它的性能能好吗？啊，我们自己写的这个东西，它的性能一定不会好的啊，为什么呢？首先我们自己写出来的这个bug，我们都不一定能保证它这个有没有啊，那其次性能的事儿我们就更不用多说了，它的性能呢，不会好，那有没有这么一些组件，它能帮我们把my circle的数据上传到HDFS呢？也就是我们的数仓当中呢，其实是有的，你看这个用户行为数据用flow，那业务数据我们用啥呀？业务数据我们可以用date叉啊来做这个事儿。
03:36
Data叉啊，它就可以同步买circle的数据到HDFS上，也就是我们所说的数据仓库啊，那数据仓库我们不就是用HDFS啊来做的存储吗？好了啊，那现在我们知道了用户行为数据的采集和业务数据的采集，我们可以用诶这两个工具来做呀，一个是一个是data叉，那我们学完了啊，这个学完了，但是这个叉我们还没有学呀，那有同学说你这个东西没学我也不会呀，哎，没事儿啊，没学也没事儿，那我们来这个上硅谷的目的是为了干嘛呀，来上硅谷的目的不就是为了学习的嘛，啊那用到这个data叉的时候，诶也会呢，教给大家啊，我们也会一行一行代码，然后一个一个配置的教大家来使用，OK，数据我们现在已经上传到HDFS了，那上传到HDFS之后，那我们就直接拿着这个数据来做。
04:37
做这个计算吗？哎，存储进来我们就直接来做计算吗？啊，肯定是不能的，不能直接计算，那为什么不能直接计算我们的数据仓库啊，你说我需不需要考虑到这个数仓的性能啊？哎，因为我把所有的数据我都拿过来了，放到这么一大坨了啊，数据呢，放到这么一大坨了，那放过来之后我直接计算，你说它的性能能好吗？哎，它肯定不能好，那具体为什么不能好啊，我们一点一点往下看好，那在我们的数仓当中呢，我们会给它进行分层啊，那这个分层我们之前也说了数仓，哎，我不管啊，我们的数仓分为两类，一类叫做离线数仓啊，另外一类呢，叫做实时数仓，好，那不管是离线数仓还是实时数仓，我们呢，都有这么四个分层，第一个叫做ODS第二个DWD第三个DWS，第四个ADS啊。
05:37
实时数仓和离线数仓，它都有这么一个分层。OK，那这个分层它有什么用呢？啊好，那首先我们先说这个ods。哎，那这个ods层啊，说到ods层我就想起来，哎，咱们之前有一个学员，他干了这么一个事儿，来到这个公司之后，他呀，这个领导说你呢，先把这个功能给我实现了，哎，你先把这个circle给我写了啊，那这个同学好家伙，他写了这么一个circle，叫做insert。
06:11
Over right o啊，哎，这个circle候我相信你们也都会写吧，哎，这个circle你们应该也都会写啊，大家应该在have的时候练习过很多遍了，那这个circle它有什么作用呢？Insert是插入，那over right呢是覆盖写啊，那执行这个语句的意思就是我之前这张表的数据，假设有这么多数据，那接下来我执行一个这个S据，我插入了多少条数据，我会把之前的数据给你覆盖掉，把它呢拿进去好啊，这个同学呢，他也写了这么一个SQL语句，只不过呀，我们的这个买circleq啊，不是买circleq的，我们的这个have表数据有5万条数据啊，5万条，然后他是刚开始进行测试嘛，测试啊，他只是拿了一条数据进行测试，OK啊。
07:11
5万条的数据，Insert over right，最终啊，变成了一条了啊，5万条变成了一条了，好啊，那这个同学呢，过来找我了，他说呃，老师啊，我把公司的那个表数据干丢了，我说那你把哪个表数据干丢了呀？我说你先别急啊啊那哎，那我虽然说告诉他别急。那你说数据丢了有没有事儿啊，哎，数据丢了有事儿，但是我不能让他慌啊，啊，那我说我说没事啊，你先别着急啊，我说哪个表数据丢了呀啊，他告诉我这个表，这个表里边有5万条数据，现在变成一条了啊后来啊，我发现这个表虽然有5万条数据，但是这个表他现在没有人用。哎，没有人正在用这5万张表的5万条数据啊，没有人正在用这个5万条数据的这个表啊，那什么时候用呢。
08:06
那数据现在已经落到HDFS了，那到达HDFS的数据一般呢，就是离线数仓来使用了，那离线数仓来使用的话，离线数仓我们在计算的时候，一般都是在凌晨，哎，来做这个统计的啊，你比方说每天的凌晨00:00:00，我来统计头一天的数据。好了，那也就是说我们这5万条数据啊，我在凌晨之前我给你恢复了，哎，是不是就没有影响了啊，那你呢，也不用跑路了，哎，虽然说三库了，但是你给他恢复了，那你呀，也不需要跑路了，好了啊，其实啊，在数仓当中啊，我们做分层啊ods层。它的目的就是这样的，那ODS层它存储的是什么数据呢？啊，我们和data叉的数据啊，啊和datax传输过来的数据过来之后，我们会先给它存放在ods层，如果说是离线数仓的话，我们先拿离线数仓来举例，那么ods层那就是氦呗，哎，我们的数仓啊，用HDFS存储，但是数仓建模我们是给它建模在have上的，那既然是在have上，那ods层存储的就是一个一个的表嘛，哎，其实每一层它存储的都是表啊，都是表好了，那弗鲁姆和这差的数据过来，我们会原封不动的放在ods层的一张表当中。
09:38
那既然是原封不动的放在ods层，那这个ods层大家能不能体会出来它有什么作用啊，哎，对，是不是用来做一个备份的呀。数据过来之后，我原封不动的放在这儿，好啊，假设啊，这个同学他是DWD层的表数据丢了啊，现在变成一条了，那对于你们来说，你们有没有什么方式能把这一条数据再次给它恢复到5万条呢？诶这个是不是就比较简单了，你看这它是一个have的表了，这是一个have的表，那我的ods层依然也是一个have的表数据啊。
10:21
你这5万条儿数据是怎么来的？是不是就是弗姆data叉的数据过来，然后我统计出来的，那好了，那我这儿有一个备份，我是不是依然可以通过我之前的数据，我给你再重新执行一遍SQL语句就完事了，SQ语句我们之前都是写好的吧，而且每天都要执行一次，那么我再次执行一下这个社会语句，诶，那这个5万条数据是不是就恢复了？好，那说到这儿大家就应该知道ods层它的一个作用了，叫什么呀？哎，就是备份啊，好了。那这个是我们数仓的第一层叫做ODS，那接下来我们看DWD层，它是用来干嘛的，那DWD层行，那接下来我们可能要考虑到计算了，那计算的话啊，假设啊，我们现在有这么一条数据，这个数据当中有一个字段叫做cost cosd什么意思呢？额啊，你比方说是十块钱好了，那接下来我们要做统计了呀，那要做统计了，那来呗，我们就一条一条的这个订单来加嘛，啊是吧，一条一条订单来加，那一条一条订单我们来进行给他累加的时候，好，你说有没有这么一种可能啊，诶，我有这么一条数据，它的这个cost字段啊，Cost字段不是数字了，变成了一个abcd了啊，我在传输的过程当中，导致我这条数据发生了错乱，哎，我的程序里有一个bug。
11:55
然后我把数据给你写错了，那这个时候怎么办呢？啊，那这个我们在统计的时候是不是就会报错呀，它会报一个错，叫做类型不匹配好，那这个问题你说我们想不想让它发生啊，其实我们是不想让这种问题发生的，所以说在统计之前，哎，在统计指标之前，我们要先做这么一个事儿，叫做数据清洗啊数据清洗什么意思呢？啊，什么叫做数据清洗呢？我把这些在接下来统计可能出错的字段，我先给你进行一个判断啊，你看啊，你卡的金额，诶你不是数字了，那怎么办呢？我是把你这条数据删掉呢，我还是做一个什么其他的处理呢？哎，或者说哎，我还有其他的数据，你这个ID和我这个ID你俩能照应上，那照应上之后，你这哎也有一个卡金额，那么我。
12:55
啊，是否能把这个看似的金额拿过来做统计呢？OK，这个就是数据清洗啊要做的事儿，那除了这个之外啊，在数据清洗当中还有一个非常常见的内容啊，我们经常能看到过这样的一个手机号啊，你像132叉叉叉叉，然后0301好，那这是什么意思呢？我们只能看到手机号的前面和后面中间我给你进行了一个加密。
13:24
哎，那这个动作啊，叫做敏感数据的脱敏啊，除了手机号，你像身份证号一般呢，我们也会给他做一个脱敏的动作，哎，数据呢，我们不会让所有的人都看得到的，你像我们的开发人员有很多，那么我们并不会让所有的开发人员都看到这些敏感的数据，当然了，肯定会有这么一个人，他有能查看到的这个权限嘛，啊但是啊，更多的人还是看不到这个敏感数据的，那这个动作叫做脱敏，那它呀也是在DWD层来做的这个事儿啊好，那DWD层它主要做的是干嘛呀？哎，就是叫做数据清洗啊好，那接下来我们看DWS层，那还是啊，我们呢，要进行这个指标统计了，那要进行指标统计，我们分析一下啊，我现在，哎，这有这么一个指标啊，这有这么一个指标，那第一个指标啊，它需要两个表。
14:24
哎，照得来。那第二个指标呢，它也需要两个表照的来好啊，大家想想，那这样的话，我是照了几次，是不是照了两次啊啊，那我这个表有10亿条数据，我这个表也有10亿条数据，这叫什么呀。这是不是叫做大表照，那大表照啊，它是非常影响性能的，那这个问题如果说让你们来解决的话，你们有没有一个什么解决的办法呢。好，哎，我是不是可以这么做呀，你看啊，我依然是有两个指标啊，两个指标啊，两个表，哎，那我在转的时候，我并没有直接照，我是先提前的，哎，我把你这两张表照样好，你这个指标需要他俩照啊，这个指标也需要他俩照，那我给你怎么办呢？我提前照应好呗，照好之后是不是有一个中间表啊，好了，那有一个中间表了，那接下来我这个指标它需要这两个表照应的时候，诶，我直接从中间表当中做一个聚合就完事了，直接做一个count萨摩或者是其他的动作，那我这个指标是不是也可以从这个中间表当中进行聚合呀，好。
15:41
那么这样啊，你看我们同样的一个照按动作，是不是就给它节省下来了，哎，节省了一次啊，那我们现在只是两个指标，那我要有十个指标呢，我是不是节省了很多次的照安呢？那这十个指标都是这两张表照得来的，那这样我们节省的性能是不是就非常多了？OK，那DWS层啊，它的作用叫做预聚合，哎，预先聚合啊，预。
16:09
聚合啊聚合。OK好，那adx层啊，那到这没有别的了，那它是干嘛呢。它就是用来统计最终的指标的了啊，那稍后呢，我们也会大家带着大家来看一看，在我们的实时数仓和离线数仓当中一共有哪些指标，好了，那好了，那现在数据已经到ADS层了啊，现在老板呢，他又要去投资了，那老板呢，跟你说，哎，我要我们公司的十年成交额，然后哎，你这回好，你并没有把每一条数据拿着十个移动硬盘，哎给老板，然后你干嘛呢？你呀，给老板了一个SQ语句，你说老板我们的数据啊，都在这个have啊，或者是h base啊，或者是当中来存储了，然后你给你给老板的一个S语句，你说老板呢，你拿着这个S语句，你去我们的这个数据仓库当中去查询吧，啊，那老板肯定非开了你不可。
17:09
那你说老板他会社会语句吗？你给他个社会语句他也不懂啊啊，那老板肯定是不会，那怎么办呢？哎，我们呢，应该提前把数据查询出来给老板看的啊，那你说我通过SQL语句啊查询出来，然后我给老板发一个微信，你说老板这个数据我给你查出来了，然后我给你发到微信上了啊那行不行呢？啊，其实也不太好，那怎么办啊啊这个时候我们就需要啊在这边做这么一个事儿了。叫做报表系统，哎，一个可视化的报表系统，那这个报表系统它有什么用呢？啊，它就是一个网站，在这个网站上我们可能有饼图啊，我们可能有这个柱状图啊，柱状图还有表格哎，等等等等这么一系列的图形，或者是折线图啊，那么我们呢，通过这些可视化的报表，把我们的数据实时的展示到这块。
18:10
屏幕上OK，那么老板接着再想去投资的时候，直接给这个投资商啊，把我们公司的这个指标，我打开一个网站，诶那你就看呗，你想看什么看什么，这样是不是就方便多了呀？哎，这个才是老板想要的啊，老板想要的是省事好了，那除了报表系统之外呀，我们这儿还有一个用户画像啊，那这个用户画像它是干嘛的呢？诶它呀，就是用来给用户打标签的啊。那他呀，一般就是结合着这个推荐系统来用，那这个推荐系统它又是干嘛的？哎，我们应该都知道，推荐系统它就是用来给我们用户做推荐的啊，你比方说我们浏览了这个京东或者淘宝之后啊，你搜索了一款商品，或者是你点击了一款商品，你会发现在最近的几天他都会给你推荐同类的商品。
19:04
啊，好了，那现在有这么一个事儿，海哥呀，半夜12点哎，去浏览了我们的京东网站啊，注意啊，是半夜12点去浏览了京东网站，然后搜索海狗人参丸，那海哥为什么要半夜12点去呢？他可能觉得半夜12点去就没有人知道了呀，啊，夜深人静了嘛，啊那其实并不难，不管你什么时候去，这个经融网站都会把你的这个信息给你捕捉到啊。OK，那海哥浏览完这个京东网站之后，他就发现，诶，最近的这一段时间呢，他都给我推荐同类的商品，那好了，那既然给海哥呀推荐啊这么一类商品了，那大家想一个问题啊，你说这个推荐系统它是专门给大海哥用的吗？哎，肯定不能吧，肯定不能专门给大海哥用啊，那你说有没有这么可能啊，有没有这么几个人哎，他们也被推荐了跟海哥同样的商品啊，海哥推荐什么了啊，他们也推荐什么了？
20:10
是不是有可能啊，那既然这些人都被推荐了同类的商品，说白了。他们怎么的，他们是不是有一些共同的特征呢？我才会给你推荐同类的商品嘛，好了，那这个共同的特征叫什么呢？哎，这个共同的特征就叫做用户的标签啊，共同特征就叫做用户标签，那这些共同特征是怎么出来的呢？好，那这个共同的特征就是由用户画像，哎，给我们计算出来的啊，用户画像它就能给我们每一个用户进行打标签啊，你比方说海哥半夜12点浏览京东网站，那给海哥一个什么标签合适啊，半夜12点是不是喜欢熬夜呀？啊，那除了海哥之外，是不是也会有这么一类人，哎，他们也喜欢熬夜，那怎么办？那我就给你这一类人推荐喜欢熬夜的商品就完了呗，哎看一看喜欢熬夜的人他们都喜欢买什么？
21:20
啊，你像这个什么手纸啊，哎，面膜啊什么什么的啊，那这些都都可能是熬夜的人啊，喜他会用得到的啊，哎，他们比较喜欢，OK，那这个就是推荐系统要做的事儿啊，推荐系统呢，它是用来给用户做推荐的，那用户画像呢，它是给用户来进行打标签的啊那这个用户画像和推荐系统他们是怎么做的呢？诶，其实啊，就是通过机器学习的算法来帮我们提炼出来的这些啊数据以及用户的特征等，OK，那么这个就是我们大数据的这个。大数据平台当中的一些，呃，应用啊，我们大数据所产生的这些数据啊，它的应用啊，OK，有这么多啊，你看下边还有一句话，数据仓库，它并不是数据的最终目的，那么数据的最终目的是为了干嘛呢？哎，是为了呀，给我们这些数据的输出啊，提前做好，你看这个备份啊，清洗聚合统计等等等等这些操作啊，数据的最终目的那就是为了我们的指标而生的啊好。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据项目之Flink实时数仓3.0

（4/185）

3分48秒

001_实时数仓_课程简介

500

2分38秒

002_数仓概念-数仓简介

420

11分47秒

003_数仓概念-数据分类

430

22分30秒

004_数仓概念-数仓总体介绍

430

4分48秒

005_数仓概念-项目需求分析

400

16分33秒

006_数仓概念-技术选型

390

10分53秒

007_数仓概念-系统数据流程

450

9分59秒

008_数仓概念-框架版本的选择

390

3分18秒

009_数仓概念-具体版本号选择

400

5分35秒

010_数仓概念-服务器选型

310

9分18秒

011_数仓概念-集群规模

430

2分43秒

012_数仓概念-集群资源规划

390

6分22秒

013_同步行为数据模拟-埋点简介

560

17分25秒

014_用户行为数据模拟-用户行为日志内容

520

9分32秒

015_用户行为数据模拟-埋点日志格式

650

15分56秒

016_用户行为数据模拟-克隆三台服务器

390

4分42秒

018_用户行为数据模拟-集群同步脚本

370

7分49秒

019_用户行为数据模拟-免密登录配置

350

8分54秒

020_用户行为数据模拟-安装JDK

400

4分23秒

021_用户行为数据模拟-Linux环境变量说明

420

15分32秒

022_用户行为数据模拟-模拟数据

430

58分32秒

023_用户行为数据采集-hadoop安装

340

20分6秒

024_用户行为数据采集-Hadoop项目经验

390

11分42秒

025_用户行为数据采集-Zookeeper安装

400

14分12秒

026_用户行为数据采集-Kafka安装

370

5分9秒

027_用户行为数据采集-Flume安装

380

35分53秒

028_用户行为数据采集-Flume的KafkaChannel

370

1时11分

029_用户行为数据采集-采集Flume配置

270

10分7秒

030_业务数据采集-电商业务简介

350

38分11秒

031_业务数据采集-电商业务表结构

400

23分27秒

032_业务数据采集-业务数据模拟

430

2分54秒

033_业务数据采集-业务数据通道

370

21分15秒

034_业务数据采集-Maxwell简介

350

33分26秒

035_业务数据采集-Maxwell配置

440

21分19秒

036_业务数据采集-Maxwell使用

400

3分32秒

037_业务数据采集-采集通道maxwell配置

400

2分14秒

038_实时数仓数据同步-实时数仓同步数据

470

16分43秒

039-分层介绍-离线数仓回顾

390

22分47秒

040-分层介绍-实时数仓分层-处理&存储框架概述

440

21分39秒

041-分层介绍-实时数仓分层-DIM层框架选择

440

14分40秒

042-分层介绍-实时数仓分层-DWS&ADS层框架选择

350

11分42秒

043-分层介绍-实时数仓分层-架构说明

320

16分57秒

044-建模理论-范式理论-关系型数据库

420

17分32秒

045-建模理论-维度建模-大数据数仓

420

8分32秒

046-建模理论-维度建模-事实表&维度表&构建数仓流程

400

4分48秒

047-开发环境-集群环境准备

380

9分54秒

048-开发环境-IDEA环境准备

390

4分58秒

049-ODS层-日志数据采集-测试

340

4分30秒

050-ODS层-业务数据采集-测试

370

11分58秒

051-每日回顾

390

8分33秒

052-DIM层-需求分析

410

7分19秒

053-DIM层-问题&解决思路提出

370

5分51秒

054-DIM层-优化1方案讨论

400

13分15秒

055-DIM层-优化2方案讨论

350

20分1秒

056-DIM层-优化2实施讨论

370

14分56秒

057-DIM层-思路整理

330

15分35秒

058-DIM层-代码编写-流程梳理&获取执行环境

400

15分16秒

059-DIM层-代码编写-Kafka消费者工具类封装

380

16分33秒

060-DIM层-代码编写-过滤脏数据

330

31分43秒

061-DIM层-代码编写-配置信息表-字段讨论&说明

380

10分10秒

062-DIM层-代码编写-配置信息表-准备工作

350

7分2秒

063-DIM层-代码编写-使用FlinkCDC读取配置信息表创建流

410

13分44秒

064-DIM层-代码编写-构建配置信息广播流&与主流连接

390

6分3秒

065-DIM层-代码编写-连接流处理逻辑分析

410

37分7秒

066-DIM层-代码编写-处理广播流数据

400

27分26秒

067-DIM层-代码编写-处理主流数据

420

15分58秒

068-DIM层-代码测试

320

21分39秒

069-每日回顾

340

16分22秒

070-DIM层-将数据写出-JdbcSink分析

350

12分27秒

071-DIM层-将数据写出-自定义Sink-创建连接池

350

31分16秒

072-DIM层-将数据写出-自定义Sink-拼接SQL&执行

380

13分37秒

073-DIM层-将数据写出-代码测试

320

24分54秒

074-DWD层-整体介绍&方案说明

390

15分0秒

075-DWD层-流量域-未加工事实表-需求分析

410

19分38秒

076-DWD层-流量域-未加工事实表-思路分析

400

8分54秒

077-DWD层-流量域-未加工事实表-代码编写-时间工具类

330

13分57秒

078-DWD层-流量域-未加工事实表-代码编写-消费&过滤&分组数据

350

16分15秒

079-DWD层-流量域-未加工事实表-代码编写-新老访客标记校验

270

23分3秒

080-DWD层-流量域-未加工事实表-代码编写-分流

390

20分59秒

081-DWD层-流量域-未加工事实表-写出数据&测试

370

10分40秒

082-每日回顾

440

6分59秒

083-DWD层-流量域-未加工事实表-整体测试

350

14分6秒

084-DWD层-流量域-独立访客明细表-需求分析

320

21分5秒

085-DWD层-流量域-独立访客明细表-思路分析

360

6分42秒

086-DWD层-流量域-独立访客明细表-代码编写-获取&过滤&转换数据

380

8分57秒

087-DWD层-流量域-独立访客明细表-代码编写-按照Mid去重&写出到Kafka

260

26分44秒

088-DWD层-流量域-独立访客明细表-代码编写-添加状态TTL

300

8分5秒

089-DWD层-流量域-独立访客明细表-代码测试

360

17分0秒

090-DWD层-流量域-跳出明细表-需求分析&思路一

320

13分56秒

091-DWD层-流量域-跳出明细表-思路二

330

20分21秒

092-DWD层-流量域-跳出明细表-思路三

340

28分0秒

093-DWD层-流量域-跳出明细表-代码编写

360

24分37秒

094-DWD层-流量域-跳出明细表-代码测试

380

10分1秒

095-Flink基础知识扩展-说明

420

12分46秒

096-Flink基础知识扩展-WindowJoin-介绍

350

31分22秒

097-Flink基础知识扩展-IntervalJoin

420

21分51秒

098-Flink基础知识扩展-FlinkSQLJoin-官网说明&InnerJoin编码测试

370

29分42秒

099-Flink基础知识扩展-FlinkSQLJoin-外连接测试

310

18分29秒

100-Flink基础知识扩展-FlinkSQLJoin-LookUpJoin说明&构建维表

420

100

20分46秒

101-FlinkSQLJoin-LookUpJoin编码-构建事实表&关联测试

410

101

11分12秒

102-每日回顾

370

102

7分31秒

103-DWD层-加购事实表-需求分析&思路整理

390

103

24分23秒

104-DWD层-加购事实表-DDL构建topci_db表

450

104

21分24秒

105-DWD层-加购事实表-过滤出加购数据

360

105

28分32秒

106-DWD层-加购事实表-编码完成&测试

380

106

27分23秒

107-DWD层-订单事实预处理表-需求分析&获取原始表和LookUp表

410

107

24分53秒

108-DWD层-订单事实预处理表-过滤出4张表&测试

360

108

29分55秒

109-DWD层-订单事实预处理表-关联5张表&测试

330

109

26分18秒

110-DWD层-订单事实预处理表-将数据写出&测试

300

110

18分36秒

111-每日回顾

300

111

40分2秒

112-DWD层-下单事实表

390

112

22分1秒

113-DWD层-取消订单事实表

370

113

36分56秒

114-DWD层-支付成功需求

400

114

14分34秒

115-DWD层-退单需求

280

115

17分45秒

116-DWD层-退款成功需求

360

116

21分10秒

117-DWD层-优惠券相关需求

430

117

16分56秒

118-DWD层-收藏商品、评价、用户注册需求

390

118

15分30秒

119-DWS层-整体介绍

370

119

33分4秒

120-DWS层-关键词需求-需求分析&工具类封装

260

120

33分14秒

121-DWS层-关键词需求-代码编写2

340

121

20分51秒

122-DWS层-关键词需求-代码编写-开窗聚合&ClickHouse表引擎选择

360

122

25分25秒

123-DWS层-关键词需求-编码完成&测试

340

123

7分21秒

124-每日回顾

430

124

18分4秒

125-DWS层-关键词需求-代码编写-ClickHouse建表&工具类封装-1

370

125

26分10秒

126-DWS层-关键词需求-代码编写-ClickHouse工具类封装-2

460

126

17分39秒

127-DWS层-关键词需求-代码编写-ClickHouse工具类封装-3

400

127

3分13秒

128-DWS层-关键词需求-代码最终测试

410

128

26分53秒

129-DWS层-版本渠道地区访客类别粒度页面浏览需求-需求分析&编码开始

400

129

27分11秒

130-DWS层-版本渠道地区访客类别粒度页面浏览需求-代码编写2

320

130

30分14秒

131-DWS层-版本渠道地区访客类别粒度页面浏览需求-代码测试

360

131

11分12秒

132-每日回顾

360

132

11分10秒

133-DWS层-页面浏览需求-需求分析&思路整理

360

133

8分16秒

134-DWS层-页面浏览需求-消费&转换&过滤数据

290

134

26分42秒

135-DWS层-页面浏览需求-编码完成&测试

350

135

16分44秒

136-DWS层-用户登录需求-需求分析&思路整理

450

136

29分37秒

137-DWS层-用户登录需求-编码&测试

360

137

21分41秒

138-DWS层-用户注册需求

330

138

27分27秒

139-DWS层-加购需求

390

139

6分52秒

140-每日回顾

360

140

24分56秒

141-DWS层-支付成功需求-需求分析

290

141

30分10秒

142-DWS层-支付成功需求-去重思路

290

142

32分0秒

143-DWS层-支付成功需求-思路整理&编码开始

320

143

34分42秒

144-DWS层-支付成功需求-编码完成&测试

360

144

32分7秒

145-DWS层-下单需求-需求分析&代码编写

350

145

25分35秒

146-DWS层-下单需求-编码完成&测试

370

146

13分42秒

147-每日回顾

370

147

10分38秒

148-DWS层-用户SPU粒度下单需求-需求分析-1关联维表

320

148

23分5秒

149-DWS层-用户SPU粒度下单需求-需求分析-2订单ID去重

320

149

21分16秒

150-DWS层-用户SPU粒度下单需求-需求分析-3订单ID去重

440

150

26分44秒

151-DWS层-用户SPU粒度下单需求-思路整理&代码编写

330

151

27分28秒

152-DWS层-用户SPU粒度下单需求-JDBCUtil封装开始

360

152

20分54秒

153-DWS层-用户SPU粒度下单需求-JDBCUtil封装完成&测试

430

153

17分41秒

154-DWS层-用户SPU粒度下单需求-DimUtil封装&测试

430

154

30分48秒

155-DWS层-用户SPU粒度下单需求-关联维表优化1-旁路缓存-说明

380

155

42分20秒

156-DWS层-用户SPU粒度下单需求-关联维表优化1-旁路缓存-编码&测试

340

156

17分0秒

157-每日回顾

420

157

16分20秒

158-DWS层-用户SPU粒度下单需求-优化方案2-异步IO-说明

320

158

13分57秒

159-DWS层-用户SPU粒度下单需求-优化方案2-异步IO-编码介绍

350

159

26分41秒

160-DWS层-用户SPU粒度下单需求-优化方案2-异步IO-异步函数准备工作

370

160

21分37秒

161-DWS层-用户SPU粒度下单需求-优化方案2-异步IO-获取维表信息参数讨论

310

161

17分31秒

162-DWS层-用户SPU粒度下单需求-优化方案2-异步IO-函数完成

380

162

17分50秒

163-DWS层-用户SPU粒度下单需求-优化方案2-异步IO-函数测试

380

163

33分40秒

164-DWS层-用户SPU粒度下单需求-后续&测试

300

164

38分31秒

165-DWS层-省份粒度下单需求

330

165

44分17秒

166-DWS层-品牌品类用户粒度退单需求

370

166

30分55秒

167-ADS&数据可视化层-课程介绍

330

167

31分33秒

168-ADS&数据可视化层-数据接口模块-构建

310

168

21分18秒

169-ADS&数据可视化层-数据接口模块-GMV需求-编码完成）

370

169

17分37秒

170-ADS&数据可视化层-数据接口模块-GMV需求-测试

350

170

11分15秒

171-ADS&数据可视化层-数据接口模块-渠道日活需求-需求分析

440

171

29分35秒

172-ADS&数据可视化层-数据接口模块-渠道日活需求-代码完成

320

172

16分50秒

173-ADS&数据可视化层-数据接口模块-渠道日活需求-测试完成

370

173

25分34秒

174_ADS&数据可视化层（数据接口模块测试已完成&其他需求接口）

310

174

3分5秒

175-Flink优化-课程介绍

370

175

30分37秒

176-Flink优化-资源优化

440

176

23分43秒

177-Flink优化-反压处理

360

177

14分59秒

178-Flink优化-数据倾斜-现象介绍&KeyBy前数据倾斜

520

178

18分17秒

179-Flink优化-数据倾斜-KeyBy后直接聚合

450

179

15分49秒

180-Flink优化-数据倾斜-KeyBy后开窗聚合

550

180

6分36秒

181-Flink优化-KafkaSource

490

181

21分36秒

182-Flink优化-FlinkSQL

360

182

5分2秒

183-实时数仓总结-分层

400

183

10分1秒

184-实时数仓总结-ODS&DWD层

280

184

4分33秒

185-实时数仓总结-DIM层

400

185

16分59秒

186-实时数仓总结-DWS&ADS层

380

004_数仓概念-数仓总体介绍

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐