文章/答案/技术大牛

发布

首页视频024_用户行为数据采集-Hadoop项目经验

024_用户行为数据采集-Hadoop项目经验

2022-12-022022-12-02 16:02:27播放44

点赞0 收藏 0

3.尚硅谷大数据学科--项目实战/尚硅谷大数据项目之电商数仓5.0/视频/024_用户行为数据采集-Hadoop项目经验.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
项目经验值HDFS的多目录存储。那说到这儿啊，什么叫做多目录呢？诶，目录我们都知道，它就是一个文件夹，那多目录就是多个文件夹，那存储多目录难道就是把数据放入到多个文件夹就完事了吗？好，来看一下。那我们呢，假设啊，我这现在有一台机器是哈都不102，它的内存大小是八个T，那八个T我们好像没有八个T的磁盘，那我们的磁盘呢，一般都是两个T左右的，那我这一台机器我想让它是八个T，所以说我就要在我的这个机器上啊，我给它安装四块2T的磁盘，那我现在就是八个T了啊，我的这个服务器虽然没有一个8T的磁盘，但是我有四个插槽啊，我有四个磁盘的插槽，我在这四个磁盘的插槽上，我分别都插上了一个2T的磁盘。
01:01
好了，那接下来我就要往我们的磁盘当中写数据了，那现在我想写数据的时候，在写数据之前，我就要先创建一个文件夹，那比方说我就放到这个磁盘当中了。来。一致最前啊，我就放到这块磁盘当中了，那大家想一个问题啊，我往这个文件夹当中写出去。那我现在再来数据，我还是往这个文件夹当中写，那我所有的数据我都写入到这个文件夹了，好了，那比如说你这个文件夹一个不够啊，那怎么办？我再来一个文件夹呗，那我再创建一个文件夹，诶，我还是放到这个磁盘当中了，那我再写数据的时候，我往这个文件夹写，同时我又往这个文件夹当中写，哎。都往这两个文件夹当中写，那大家想一想。对于我们的这个磁盘来说呀，对于102的这个8T的磁盘来说，我们呢，都写到其中的这么一块2T的磁盘上了，那其他这2T的磁盘根本就没有用上。
02:08
他们两个根本就没有数据，根本就没有用上其他这三块磁盘的IO，也没有用上三块其他磁盘的存储，让大家想一想，我都写入到这一块磁盘上了，我们的性能它能好吗？本身磁盘的IO啊，它就有一定的瓶颈，然后它的存储也是有一定的瓶颈的啊，他也是有一定的这个限度的，那我其他的三块磁盘都很闲，就他一个人很忙，我们整个这台机器它的性能一定不会好吧，那什么叫多目录呢？多目录的意思啊，并不是说我在一块磁盘上我创建多个文件夹就完事了，而是我要在不同的磁盘上分别创建一个，哎，创建不同的文件夹，然后来存储我们的数据，你比方说我现在呢，就要往HDFS当中写数据了，那我往HDFS当中写数据，我就只往一个磁盘上写吗？哎，不是的，那我要把这个磁盘的压力给它均分开，每一个磁盘我都给它写一部分数据啊，每一步，每一个磁盘我都给它写一部分数据。
03:20
那这样的话就能导致我们磁盘之间的这个IO的瓶颈，还有存储的瓶颈，把压力给它均分开，OK，那这个就叫做磁盘之间的多目录。这个多目录应该怎么配置啊？在HDFS-set这个配置文件当中啊，有这么一个参数。这个参数的名字叫做DFS data node data.d啊，配置我们data not的，那data not是我们存储数据的这么一个。地方，那我们看一看，你看我在这配置一个file冒号杠杠，然后我指定了一个路径，再来一个file冒号杠杠，我指定了一个路径啊，我这指定了三个四个路径，你看DATA1 data2d3 data4，那每一个路径呢，它就代表一个文件夹，那对应着我们的这个图，你看。
04:11
我这个是DATA1，这个是DATA2，这个是DATA3，这个是DATA4，那大家想一想，你说我指定的这四个路径，我是都在不同磁盘上的呢，还是我这四个文件夹都是在一个磁盘上的文件夹？肯定是在不同磁盘上的文件夹吧，如果说我还指定都在同一个磁盘上的文件夹，那这个多目录是不是就没有意义了呀，它还是在一个磁盘上。所以说多目录的存储，我们这指定的呀，虽然是四个路径四个文件夹，但是这四个文件夹要分别是在不同磁盘上的文件夹，OK，那大家再想一个问题，你说这个配置我们呢，我首先我要先在哈杜和102我给它配置上，那我在哈多102我给他改完了啊，我现在有三台机器吗？102。
05:04
103。这是零四，我在零二上啊，把这个配置修改完了，那修改完之后我要不要给他分发到零三和零四呢？想一想需不需要给他分发到103和104。啊，他们两个不配置多路肯定不会好，为什么不喷发？啊，想一想啊，原因是什么？原因是这么个情况，看这我的102现在是不是有四块磁盘呢？所以说我在这配置的时候，我配置了四个磁盘上的目录，那好了，那你说我的103我就一定有四块磁盘吗？我的103有没有可能它就只有三块磁盘呀，那只有三块磁盘，然后你给他配置四个目录，那你配置这四个目录，我这个目录它根本就没有，我想写的时候，我找不到你这个目录，那它就会报错。所以说多目录的这个配置啊，我三台机器，我不管你是三台还是30台，所有的机器都需要配置。
06:08
但是每一台机器它配置的情况都不一样，所以说那这个配置啊，我们不能分发，你看这就说了啊，每台服务器它挂载磁盘的这个情况它是不一样的，所以说那每一台服务器我们配置的这个多目录的路径它应该也是不一样的，那每台机器我们怎么办？单独配置OK，那这个叫做磁盘之间的多目录项目兼值集群数据均衡，那就拿我们的这个哈多来说，我们的哈多维啊，在集群之间的数据均衡有两种模式，一个叫做节点间的数据均衡，那第二个叫做磁盘间的数据均衡，好，那我们先来看这个磁盘间的数据均衡啊，什么叫磁盘间的数据均衡呢？还来到这个图，那在这个图当中，我们现在有1234，我们现在在这一台服务器当中啊，一共有四块磁盘，那每一块磁盘你假设我这台服务器，我这个磁盘它的使用率已经占用了20%了。
07:12
我这块磁盘它的使用率已经占有90%了，它10%，它呢10%，那现在就出现这么一个情况啊，其中一个磁盘它的使用率非常高，那其他磁盘它们的使用率非常的低。那这样也会有可能造成我们的这个集群之间的瓶颈啊。你看那我写数据的时候，由于我们是随机写嘛，哎，那我就写入到这块磁盘上了，他的这块磁盘压力非常大，那我在读写的时候效率可能就会非常慢，那就会导致我们整台服务器它的这个性能非常差，那不行，那这个时候我就要想办法，我们的卡杜吧，有没有一种方式能帮我们均衡一下节点之间的啊，磁盘之间的数据量呢？我那我想要的结果是啥呢？你看它们三个现在加一起一共是呃，120%，那最后啊，我想让他的结果是你在30。
08:10
你占30，你也占30%，你呢也占30%，那这个是我们想要的一个结果，OK，那磁盘之间的数据均衡，那他来了，我们看一看。磁盘之间的数据均衡啊，就能帮我们做这个事儿，那首先我们要执行这么一个命令，它呢就能帮我们生成一个均衡计划，但是大家要记住一点，我们的虚拟机。有多块磁盘吗？没有啊，虚拟机它没有多磁盘的这个概念。那我们的虚拟机只有一块磁盘，所以说我们呢，在虚拟机上来测试的时候，我们无法生成均衡计划，一块磁盘你跟谁去均衡去啊，啊，一块磁盘均衡不了，那接下来生成完均衡计划之后呢，我们就要执行我们所生成的这个均衡计划了，OK，那在执行的时候呢，我们也可以通过这个命令啊，来查看我们当前这个磁盘来均衡的情况，你比方说我看一看三台三四块磁盘，他们每一块磁盘都占多少了呀，均衡到一个什么程度了呀，OK，那当这个磁盘之间呢，他们，哎，我感觉均衡都差不多了，都剩到30%左右了。
09:21
那然后呢，我就可以取消我的均衡任务了，注意这个均衡任务啊，我们只能手动取消，他不会帮我们自动取消，那我们执行完了之后，我想的是，诶均衡差不多了，那你可能自己就停止了，不会的。它会停止，但是这个均衡的线程它一直在，当磁盘之间的这个数据量啊，它们的差异性又变得非常大了。那么这个均衡又会自动的重启了，那大家想一想，这个磁盘之间的数据均衡，它是一个什么样的情况啊？我是不是就把这个数据量多的这个磁盘的数据，我给你往这个复制一份，往这儿复制一份，往这再复制一份，这是不是就是一个磁盘之间的数据传输啊，说白了就是一个复制嘛，那当然了，它不是跨节点通信啊，但是只要是文件磁盘之间的IO，那它肯定就是要耗费性能的，所以说这个均衡任务我们执行完一次必须要取消，你不取消，那他就会时刻的给你一直还在监控我们磁盘的状态，然后帮助我们来均衡节点之间的数据均衡，那首先呢，我们来看一看节点之间的数据均衡，最开始我们要开启一个均衡命令，但是我们开启均衡命令，它后面，哎，你看这有一个十，这个十是什么意思呢？它是一个比例啊，那首先我们看节点之间的数据均衡是啥样的啊。
10:45
我们现在这是不是只有一台服务器啊，这是哈杜OP102，那可能在我们的生产环境上，我还有一个哈杜OP103，那这台机器啊，它就是我们的哈杜103，诶我给它缩小一点。
11:00
好，那这个就是我们的哈多103，那你比方说我现在这两台机器，首先有三台机器吧，102 103 104啊，102这台机器它的总共磁盘的使用量已经使用了80%了，或者甚至于90%了，那103和104啊，它们两个的使用量只有10%。那这样你看节点之间，它们之间的数据也出现了不均衡，那也出现了不均衡的话，我这台服务器当我在写数据的时候，那它也很有可能写到我的这台服务器上，那我这台服务器写就会导致我们整个的大数据集群。它的性能哎非常差，那怎么办呢？我们要想办法把它的数据给这两台机器复制一份，然后让我们磁盘之间的这个数据给它均衡一下，那这个时候我们就要用到节点之间的数据均衡了，那这有一个10%是啥意思呢？它呀是一个比例，你比方说我在均衡的时候，我判断一下。
12:04
我们这两台节点之间，它们磁盘的数据量相差到没到10%，如果说相差还是大于10%的话，那我就继续均衡，什么时候你们两台机器或者是三台机器之间呢，它们之间的数据相差已经小于10%了，那么我就会立即停止均衡，注意啊，我们所说的这个停止均衡呢，他也不是说我这个均衡的进程就没了，这个均衡的进程线程它也会一直阻塞在后台，当他什么时候发现。我们节点之间的数据，哎，又超过10%了，那这那这个线程就会被立即唤醒，它继续均衡，所以说我们均衡完也要执行一个停止的命令啊，那说完数据均衡，我们这儿还有一个参数，这个参数我们看一看它是啥意思啊。这个参数，那我们想一个事儿，我们的这个数据啊，你看这是我们的name note，这是我们的data note，我们在data notde当中有这么多数据块，那每一个数据块上午的时候我们是不是说过要上内node进行上报啊，要向NN进行上报吧，每一个数据块都需要向NN进行上报，那既然需要向NN内node进行上报的话，内node呢，它就对应的要有这么多线程来帮我们接收。
13:28
Data note的数据块上报的请求，那这个线程数我们设置成多少合适呢？我们设置多少个线程来帮助我们接收数据块的请求呢？那这个那有同学说我先设置100个呗，啊，我设置1000个，100个线程，我设置100个线程，1000个太夸张了，100个线程来帮我们接收，那好了，那我们现在磁盘之间，我一共只有九个数据框，你咔搞了100个线程，是不是有点有点浪费呀，这个线程它的设置啊，我们呢，也这儿也有一个遵循的公式，我们看一看它呢。
14:04
呃，这个公式我们是叫做。20乘以log，以E为底集群数量的这么一个对数，那同学说老师你这个log我已经不会算了啊，这个是什么呢？这个log应该是我们在初中的时候就学过的这么一个，那你现在不会也很正常啊，毕竟我们都已经大学毕业了，那初中学过的东西你不会哎，是很正常的，那怎么办呢？没事，我们呢，这在我们的。高总是吧，啊行，在我们的这个Linux当中有一个Python py hon，那Python里它就有一些相应的数学包，那我导入这个数学包，然后我就可以用我对应的数学包里的一些公式了，好，我给它复制过来，复制完之后啊，我就先I portt导入一个matchx数学包，导完之后你看我执行一下这个公式，我们看看啊，20乘以max.log在这个包下面就有这么一个log log我没有底数，那默认的呀，这个底数就是E，如果说你没有写底，它的底数就是E，那我这还有一个八集群数量的这么一个对数，但我现在没有八台集群，我是三台集群，那接下来我们看一看它返回一个什么结果，我们给它返回一个int类型的结果回去。
15:25
回车之后，它给我们返回了一个21，那也就是说这个接克线程我们给它设置成21个，OK，那这个参数是什么呢？我们看在这呢，DFS的内note，它啊，就把这个参数给它放到我们的HDFS-S当中啊，这儿还有这么一个面试题，现在啊，我们这台机器是这么一个情况，在我们的服务器当中。我们的大数据集群一共有七台机器，每天的数据量是几亿条，数据量很大啊，七台机器集群规模也还行，那数据源的去向啊，啊，我们的数据流向是这样的，数据源卡普卡HDMS还我哎，跟我们的集群刚好吻合，但是最近呢，出现了这么样的一个情况，怎么个情况呢？
16:11
当我们在用circleq进行计算的时候，我发现我的这个SQ语句它也没有数据清洗。啊，小文件呢，我们呢也做了合并，并且啊我们也开启了这个JVM通用，而且IO，哎，磁盘之间的这个网络IO也非常好，而且内存我用了还不到50%，用了不到50%，那也就是说还剩50%没有用呢，内存是不是也很充足呢，但是它跑的还是非常慢。为什么呢？哎，你看你们之前会的这些内容啊，哎都帮你们解决好了，什么数据倾斜，哎你们会处理了，小文件你们呢也会处理了，那这边M重用你们也知道怎么搞，那IO如果说出问题了，大家也都知道该怎么做。这些事儿已经帮你解决完了，但是他跑的还是非常慢，注意这有这么一个点啊，并且呀，数据洪峰过来的时候，整个集群都会荡掉，你看我剩了这么多的内存，为什么数据。
17:13
过来了，我的整个集群都会荡掉呢，那针对于这种情况，大家想一想，能不能想出什么方案呢？先不要想是什么方案，先去想是什么原因导致的，我们呢，用正常的这个思想啊，内存用了不到50%，那是啥意思呢？哎，我们一想，你内存用了不到50%，你还有这么多可以用的啊，你不到50%，你只用了这么多，你还有这么多可以用，但是我们用一个逆向思维来考虑，你有50%没有用啊，你有这么多内存没有用，但是你数据过来的时候你挂了，那就证明你数据过来的时候，你这50%你依然没有用得到，它才会挂吧，说白了不是我们的内存不够用了。
18:04
而是我们对内存的利用率不够吧？啊，而是我们对内存的利用率不够了吧？OK，那好了，那内存的利用率，我们计算的时候，雅安的内存利用率不够了，我们怎么办？还记不记得我们昨天学了两个参数啊，往下看。在这呢，第一个参数叫做调整雅恩单个节点它可以使用的最大内存，那这个内存叫做雅安的单个任务，也就是container，它的最大内存什么意思呢？看啊，你比方说我们现在这台机器在生产环境下是一个128G的，那128G的这台机器，我让你的。No manager，也就是我们雅安可以使用的内存，我只让你用了多少啊啊，他用了不到一半，你比方说我只给他用了60个G。
19:00
那还剩下60多个G啊，还剩下68个G，你这68个G我们的雅恩根本就没有用得到啊，能理解了吧？哎，这个是利用率不足导致的，所以说那对应的呢，我们就要调整这个参数，对应的给它稍稍调大一些再有。单个任务是可申请到最大物理内存，那这个就是我们所说的con的con ta，那还有一种可能就是你看数据洪峰过来了，刚刚也说了，数据洪峰过来的时候任务会挂掉，那就证明我们的这个container啊，内存设置的也给它过小了，哎，数据一大了，我们的container它就没有那么大内存了，所以说对应的这两个设置呢，我们要给它设置的大一些，默认的啊，这两个都是八个G，你看你这个默认是8G。我们是120G的，128G的服务器，默认的你只有八个G啊，那还剩120G你都没有用，所以说这个参数用默认的肯定不行啊，我们对应的要给它调大，同样这个参数呢，我们也可以稍稍给它调大一些。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据项目之电商数仓5.0

（23/199）

4分8秒

001_离线数仓_课程简介

480

2分38秒

002_数仓概念-数仓简介

420

11分47秒

003_数仓概念-数据分类

340

22分30秒

004_数仓概念-数仓总体介绍

440

4分48秒

005_数仓概念-项目需求分析

530

16分33秒

006_数仓概念-技术选型

400

10分53秒

007_数仓概念-系统数据流程

380

9分59秒

008_数仓概念-框架版本的选择

370

3分18秒

009_数仓概念-具体版本号选择

360

5分35秒

010_数仓概念-服务器选型

390

9分18秒

011_数仓概念-集群规模

460

2分43秒

012_数仓概念-集群资源规划

380

6分22秒

013_同步行为数据模拟-埋点简介

360

17分25秒

014_用户行为数据模拟-用户行为日志内容

380

9分32秒

015_用户行为数据模拟-埋点日志格式

480

15分56秒

016_用户行为数据模拟-克隆三台服务器

370

4分42秒

018_用户行为数据模拟-集群同步脚本

340

7分49秒

019_用户行为数据模拟-免密登录配置

410

8分54秒

020_用户行为数据模拟-安装JDK

370

4分23秒

021_用户行为数据模拟-Linux环境变量说明

270

15分32秒

022_用户行为数据模拟-模拟数据

360

58分32秒

023_用户行为数据采集-hadoop安装

410

20分6秒

024_用户行为数据采集-Hadoop项目经验

440

11分42秒

025_用户行为数据采集-Zookeeper安装

420

14分12秒

026_用户行为数据采集-Kafka安装

400

5分9秒

027_用户行为数据采集-Flume安装

390

35分53秒

028_用户行为数据采集-Flume的KafkaChannel

470

1时11分

029_用户行为数据采集-采集Flume配置

420

10分7秒

030_业务数据采集-电商业务简介

360

38分11秒

031_业务数据采集-电商业务表结构

370

23分27秒

032_业务数据采集-业务数据模拟

330

2分54秒

033_业务数据采集-业务数据通道

440

21分15秒

034_业务数据采集-Maxwell简介

360

33分26秒

035_业务数据采集-Maxwell配置

340

21分19秒

036_业务数据采集-Maxwell使用

350

3分32秒

037_业务数据采集-采集通道maxwell配置

340

2分14秒

038_实时数仓数据同步-实时数仓同步数据

460

3分22秒

039_离线数仓数据同步-用户行为数据同步通道

450

1时8分

040_离线数仓数据同步-用户行为数据同步flume配置

380

29分56秒

041_离线数仓数据同步-业务数据同步策略

360

17分41秒

042_业务数据采集-DataX简介

400

13分4秒

043_业务数据采集-DataX部署

460

58分10秒

044_业务数据采集-DataX案例

460

13分37秒

045_业务数据采集-DataX的HdfsWriter的Null值存储问题

510

9分32秒

046_业务数据采集-DataX参数调优

430

1时7分

047_业务数据采集-全量同步流程

360

46分48秒

048_业务数同步-增量同步流程

330

9分45秒

049_业务数据同步-集群总启停脚本

370

9分0秒

050_业务数据同步-Hive安装部署

360

11分58秒

051-数据仓库-概述

410

37分15秒

052-数据仓库-核心架构

410

19分50秒

053-建模方法论

410

26分52秒

054-建模方法论-ER模型-数据库规范化

440

8分33秒

055-建模方法论-ER模型-函数依赖

450

27分5秒

056-建模方法论-ER模型-三范式

410

18分2秒

057-建模方法论-维度模型-概述

420

8分11秒

058-采集集群-要求

320

23分55秒

059-维度模型-事实表-事务事实表-概述

430

12分22秒

060-维度模型-事实表-事务事实表-设计流程

440

10分44秒

061-维度模型-事实表-事务事实表-不足

420

31分3秒

062-维度模型-事实表-周期快照事实表

460

14分25秒

063-维度模型-事实表-累积快照表

460

15分42秒

064-维度模型-维度表-设计步骤

430

9分1秒

065-维度模型-维度表-确定维度属性-要点

440

9分34秒

066-维度模型-维度表-维度设计要点-规范化&反规范化

370

11分50秒

067-维度模型-维度表-维度设计要点-维度变化-全量表

450

20分6秒

068-维度模型-维度表-维度设计要点-维度变化-拉链表-制作和使用

500

9分17秒

069-维度模型-维度表-维度设计要点-多值维度

560

10分6秒

070-维度模型-维度表-维度设计要点-多值属性

520

6分54秒

071-维度模型-对同步策略的影响

450

27分1秒

072-设计-分层规划

510

23分29秒

073-设计-构建流程

390

26分36秒

074-构建流程-数据调研-业务调研

430

5分18秒

075-构建流程-数据调研-需求分析

470

13分27秒

076-构建流程-划分数据域

550

12分31秒

077-构建流程-构建总线矩阵&维度模型设计

750

31分15秒

078-构建流程-明确统计需求-指标体系

540

23分15秒

079-构建流程-明确统计需求-汇总模型设计思路

450

20分17秒

080-运行环境-说明

380

15分56秒

081-运行环境-Hive-on-spark-编译源码

400

45分20秒

082-运行环境-Hive-on-spark-部署

350

15分1秒

083-开发环境-使用说明

400

10分33秒

084-数据准备-日志

290

22分7秒

085-数据准备-业务-全量&增量

390

4分0秒

086-Hive-on-spark环境问题排查思路

460

12分45秒

087-ODS层-设计要点

400

6分47秒

088-ODS层-日志表-设计思路

290

21分16秒

089-ODS层-日志表-json表

430

23分7秒

090-ODS层-日志表-复杂数据类型

390

14分29秒

091-ODS层-日志表-建表语句

370

4分6秒

092-ODS层-日志表-数据装载

400

13分18秒

093-ODS层-日志表-数据装载脚本

370

21分51秒

094-ODS层-业务表-建表语句-全量&增量

400

16分59秒

095-ODS层-数据装载

430

3分13秒

096-DataGrip元数据显示异常问题说明

390

8分51秒

097-DIM层-维度模型规划

400

7分35秒

098-DIM层-设计要点

360

16分6秒

099-DIM层-商品维度表-确定主维表和相关维表

470

43分39秒

100-DIM层-商品维度表

450

100

32分42秒

101-DIM层-优惠券维度表

360

101

13分3秒

102-Hive元数据中文乱码问题说明

450

102

12分7秒

103-DIM层-活动维度

360

103

10分56秒

104-DIM层-地区维度

440

104

28分6秒

105-DIM层-日期维度

480

105

18分59秒

106-DIM层-用户维度-拉链表-建表语句

370

106

23分37秒

107-DIM层-用户维度-拉链表-数据装载-首日

450

107

53分13秒

108-DIM层-用户维度-拉链表-数据装载-每日-思路一

510

108

15分25秒

109-DIM层-用户维度-拉链表-数据装载-每日-思路二

430

109

12分5秒

110-DIM层-数据装载

380

110

8分2秒

111-DWD层-设计要求

420

111

12分51秒

112-DWD层-交易域加购事务事实表-建表语句

430

112

12分1秒

113-DWD层-交易域加购事务事实表-数据流向

470

113

9分10秒

114-DWD层-交易域加购事务事实表-数据装载-首日

400

114

32分20秒

115-DWD层-交易域加购事务事实表-数据装载-每日

380

115

24分31秒

116-DWD层-Hiveserver2-文件描述符问题说明

350

116

15分20秒

117-DWD层-交易域下单事实表

410

117

24分48秒

118-DWD层-交易域下单事实表-数据装载-首日和每日

470

118

8分40秒

119-DWD层-交易域取消订单事实表-建表语句

380

119

28分17秒

120-DWD层-交易域取消订单事实表-数据装载-首日和每日

370

120

21分26秒

121-DWD层-交易域支付成功事实表-建表语句

370

121

20分17秒

122-DWD层-交易域支付成功事实表-数据装载-首日和每日

430

122

22分31秒

123-DWD层-交易域退单事实表

380

123

24分46秒

124-DWD层-交易域退款成功事实表

350

124

18分13秒

125-DWD层-交易域购物车周期快照表

440

125

28分10秒

126-DWD层-工具域优惠券业务分析

440

126

10分58秒

127-DWD层-互动域收藏商品事务事实表

470

127

18分39秒

128-DWD层-互动域评价事务事实表

330

128

24分23秒

129-DWD层-流量域页面浏览事务事实表-建表语句

370

129

53分12秒

130-DWD层-流量域页面浏览事务事实表-数据装载

440

130

9分3秒

131-DWD层-流量域启动事务事实表

440

131

24分28秒

132-DWD层-流量域动作事务事实表

390

132

8分45秒

133-DWD层-流量域曝光事务事实表

420

133

20分48秒

134-DWD层-流量域错误事务事实表

360

134

34分6秒

135-DWD层-用户域用户注册事实表

400

135

23分27秒

136-DWD层-用户域用户登录事实表

490

136

2分39秒

137-DWD层-维度模型-小总结

410

137

7分59秒

138-DWD层-数据装载

310

138

35分4秒

139-DWS层-设计要点

410

139

19分6秒

140-DWS层-设计-构建指标体系

530

140

5分33秒

141-DWS层-设计-抽取派生指标

430

141

38分25秒

142-DWS层-设计-最近1日n日汇总表

460

142

14分43秒

143-DWS层-设计-人数重复计算问题-最近1日n日汇总表

470

143

29分9秒

144-DWS层-设计方案-设计V2.0

460

144

17分1秒

145-DWS层-设计方案-设计V3.0

390

145

16分42秒

146-DWS层-设计-历史至今-汇总表分析

360

146

31分10秒

147-DWS层-设计-历史至今-数据装载

390

147

7分3秒

148-DWS层-设计-总结

400

148

18分15秒

149-DWS层-交易域用户商品粒度订单最近1日汇总表

370

149

6分27秒

150-DWS层-交易域用户商品粒度订单最近n日汇总表

470

150

7分5秒

151-DWS层-交易域用户商品粒度退单最近1日和n日汇总表

440

151

10分6秒

152-DWS层-交易域用户粒度订单汇总表

460

152

5分26秒

153-DWS层-交易域用户粒度加购汇总表

320

153

3分46秒

154-DWS层-交易域用户粒度支付汇总表

430

154

6分42秒

155-DWS层-交易域省份粒度订单汇总表

390

155

7分11秒

156-DWS层-交易域用户粒度退单汇总表

440

156

11分29秒

157-DWS层-流量域会话粒度页面浏览最近1日汇总表

340

157

6分59秒

158-DWS层-流量域访客页面粒度页面浏览汇总表

380

158

38分29秒

159-DWS层-交易域优惠券粒度订单最近n日汇总表

330

159

9分15秒

160-DWS层-交易域活动粒度订单最近n日汇总表

420

160

6分27秒

161-DWS层-交易域用户粒度订单历史至今汇总表

460

161

2分34秒

162-DWS层-交易域用户粒度支付历史至今汇总表

410

162

17分3秒

163-DWS层-用户域用户粒度登录历史至今汇总表

520

163

15分9秒

164-DWS层-数据装载-最近1日n日历史至今

380

164

1时8分

165-ADS层-各渠道流量统计

360

165

27分8秒

166-ADS层-用户路径

370

166

23分41秒

167-ADS层-用户路径-需求实现

360

167

9分6秒

168-ADS层-用户变动统计-需求说明

350

168

13分33秒

169-ADS层-用户留存率-需求说明

260

169

19分46秒

170-ADS层-用户变动统计-需求实现

350

170

28分41秒

171-ADS层-用户留存率-需求实现-2种思路

310

171

2分41秒

172-ADS层-用户新增活跃统计-需求说明

420

172

13分45秒

173-ADS层-新增活跃用户统计-需求实现

450

173

7分55秒

174-ADS层-漏斗分析-需求说明

370

174

3分15秒

175-ADS层-新增交易用户统计-需求说明

350

175

5分34秒

176-ADS层-品牌复购率-需求说明

270

176

40分39秒

177-ADS层-漏斗分析-需求实现

320

177

8分23秒

178-ADS层-新增交易用户统计-需求实现

350

178

25分58秒

179-ADS层-品牌复购率-需求分析

310

179

2分45秒

180-ADS层-各品牌交易统计-需求说明

390

180

4分15秒

181-ADS层-购物车存量topN-需求说明

380

181

4分4秒

182-ADS层-交易综合统计-需求说明

310

182

25分10秒

183-ADS层-各品牌交易统计-需求实现

330

183

11分58秒

184-ADS层-购物车存量topN-需求实现

340

184

11分46秒

185-ADS层-交易综合统计-需求实现

350

185

7分25秒

186-ADS层-各省份交易综合统计

380

186

3分22秒

187-ADS层-补贴率统计

380

187

3分18秒

188-ADS层-数据装载

370

188

1时8分

189-报表数据导出-DataX

360

189

33分42秒

190-全流程调度-DS-核心架构

320

190

16分1秒

191-全流程调度-DS-部署模式及要求

420

191

16分4秒

192-全流程调度-DS-部署-数据库初始化

400

192

35分25秒

193-全流程调度-DS-部署-一键部署

480

193

27分10秒

194-全流程调度-DS-使用-安全中心

370

194

36分26秒

195-全流程调度-DS-使用-入门

520

195

1时15分

196-全流程调度-DS-使用-进阶

350

196

1时4分

197-全流程调度-集群模式&单机模式

400

197

1时1分

198-可视化-Suserset-安装部署

370

198

30分25秒

199-可视化-Suserset-完整流程

450

199

7分40秒

200-可视化-Suserset-完结

390

024_用户行为数据采集-Hadoop项目经验

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐