文章/答案/技术大牛

发布

首页视频004-尚硅谷-项目分析-技术选型

004-尚硅谷-项目分析-技术选型

2022-12-022022-12-02 16:02:23播放42

点赞0 收藏 0

3.尚硅谷大数据学科--项目实战/尚硅谷大数据电商数仓项目（含2.0、3.0版本）/尚硅谷数仓项目实战V3.0/视频/004-尚硅谷-项目分析-技术选型.wmv

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
把这个PPT先点开。呃，刚才咱们提到了，就是说咱们应该如何去做这个系数选型，对吧？其实要做技术选型的话呢，呃，所谓的技术选型是什么？就是说我现在要实现一个功能对吧？但是目前市面上能实现这个功能的这个工具或者是框架有很多，那我到底应该选谁？这个选择的过程就是所所谓的技术选型啊，就是选型，那咱们技术选型啊，咱们要考虑的因素其实是非常非常多的啊，比如说第一个数据量的大小啊，咱们大当然针对的是咱们大数据领域啊，啊第二个业务需求什么，行业内经验，技术成熟度，然后开发维护成本，然后总成本预算。啊，这都是咱们需要考虑的一些这个因素啊，那咱们接下来呃，把这里边比较重要的几个因素咱们去点一点啊，首先第一个最重要的因素应该是啥呀？对业务需求，你首先得先满足咱们的业务需求，对吧？比如说我现在要采集日志啊，你不能选一个采集业务，采集数据库的，那你不能选对吧？那所以业务需求必须少要满足啊，那他满足之后呢，那如果说咱们真真的就是面向开发对吧，那我们开发希望什么呀？希望这个能够快速的上线对吧？哎，越快越好，那所以说咱们还得选一个什么东西呢？选一个这个呃，技术成熟度高的，然后呢，行业内经验丰富的。
01:22
啊，什么意思啊，所谓技术成熟度高的，那你就得选选，比如选框架的时候，我就得选什么呀，比如说咱们选那种开源框架，你不能选那种啊，那个孵化项目对不对，因为咱们阿帕奇项目有这个啊，就是已经成熟的就是啊成为阿帕奇顶级项目，咱们选肯定选顶级项目对不对？呃，有一些项目可能正处在那种就是in cuing阶段，就是孵化阶段，对吧，它官网上会有标注的，那那那种的咱们尽可能来少选，因为孵化阶段呢，它可能将来变动会比较大啊，所可能还不是特别成熟，不是特别稳定，尽可能不选啊，所以说这个成熟度哎，咱们要选这个，呃，高一点的啊，那再一个呢，行业内经验要要多的，什么叫行业内经验多的呀，就是大家用的多对不对，那大家都用这个，呃，那都用这个，你从网上去找资料的时候呢，资料就会丰富，你遇到什么坑呢，别人体验都给你踩过了，对不对，那所以说行业内经验一定要选更丰富一些的，就是大家用的多的啊，这个咱们得得得得得明确啊，因为如果。
02:23
说你选一个没人用的很冷门儿的那种。你用起来之后，你遇到什么问题，你只能自己去解决啊，你找不着其他的方案对吧，那所以说这个是也是很重要的啊，那再一个呢，就是呃，咱们刚才提到的这个什么，这个开发维护成本啊，开发成本，那肯定这里边涉及到什么呀，说第一个学习成本。啊，第二个诶维护成本，所以学习成本呢，就是咱们你要是一个从来没接触过，没听过的东西，那你拿过来要用，你是不是得重新学呀，对吧，这也需要很长的时间啊，那你要找一个自己之前用过的，自己熟的，那上来上手就可以用，那所以这个成本相对低的，那第二一个维护成本啊，就是有些框架我可能设计的好，有一些框架设计的不好，设计好的你你去使用起来很很很省心，对吧？啊，你不需要做过多的配置啊，不需要做过多的监控，那那这这种用起来就比较放心啊，那有些可能设计的不好啊，可能需要这个投入大量的维护成本，那这个就啊，尽可能不要去选。
03:20
啊，所以说这个也要考虑总总结一个就是说你选呃这个所谓的成本啊，就是说用起来越省心越好啊，就是说自己越熟越好啊肯定是这样，然后总预算成本，总成本，这个总成本呢，其实里边就包含了咱们这个，呃就是经济成本对吧？经济成本啊，就是尽可能的，咱们选什么样的呢？呃，选开源的对吧，这个不用花钱啊，当然那个付费的话呢，如果说你要必须得用，你可以跟公司申请对吧，你看公司给你批不批啊，花钱的可能公司一般都不大，不太想用啊，啊尤其是咱们这一些，呃，这种就是民营的一些公司啊，当然那个一些政府企业肯定是啊，就是哪个花钱用哪个是吧？啊，因为他有人管啊，有人管，因为开源的人总觉得就是开源的可能不不可靠不安全，对吧？啊，有这样的想法，那种就是商业版的，你付费了，那我出问题你会给我提供技术支持啊，是这样的啊，所以说一般啊政府项目都会用这些，呃，就是需要付费的啊，那咱们一些民营的都是啊拥抱开源啊，能开。
04:21
行，那再一个就是这个数据量的大小了啊，数据量大小，你比如说我们去选一个这种，呃，就是数据分析引擎的时候，对吧，咱们前面讲了有那种什么集析查询对吧？G查询要求我计算的得快，那我不同的机器集器查询，我支持的数据量是不一样的，比如说普我支持GB级别的，GB到PB级别，那我麒麟呢，我支持诶更大的级别，那你得看你公司的数据量是多少了啊，那根据数据量选择对应的分析引擎啊，是这样，所以这些都是咱们需要考虑的问题啊，啊考虑问题，那咱们这里边最重要的啊，就是大家到时候选的时候就首先满足业务要求，第二一个呢，你就选那种，就是大家用的比较多的啊，就选大家用的比较多的啊，既然大家都用都用这个，那说说明它什么，说明肯定好用对吧？啊主要是啊这样的啊，就是稍微就是有一点那个随大溜的意思啊好，那这个咱们不再多说了啊，那接下来我们看一看我们前面那些需求啊，来都有哪些实现方案，来先说这个数据采集。
05:20
啊，数据采集传输，那数据采集传输呢，我们实际上咱们分为两个哎部分对吧，一个是采集的日志，一个采集是数据库，那采集日志咱们用谁呀？用呃F啊用这个是肯定没跑了，用F啊是这样的啊，然后F这边我们后边还有一个啥，还有一个卡夫卡啊，还有卡夫卡啊，然后这个卡夫卡它是干什么用的呢。啊是这样啊，呃，实际上我们刚才前面提到了，就是我们公司里边，我们这个数据分析呢，我们会有离线分析，会有实时分析，对吧，有离线数仓，实时数仓啊，那离线数仓，那我其实采集数据，我追求它这个时效性嘛，不追求对吧，因为我是离线分析嘛，对吧，你只要这一天数据在晚上到了，我我我我我再分析就行了啊那所以说实际上如果咱们呃，单纯的考虑这个呃什么东西啊，单纯的考虑咱们的这个离线系统的话呢，呃，其实我就可以怎么做，直接呃用什么这个flu啊，把数据直接传到HTS就行啊，直接传到HTS啊对吧，直接传到HTS就可以了。
06:25
啊呃，因为咱们当中有什么有呃采集文件的source有往HL上写的S对吧？哎，实要我用它就行啊，应该就行啊，但是呢，我们也讲过我们的，呃离线跟实时在公司里边都有啊，那离线我要采集数据，我实时要不要采集数据啊，他也要采集啊对吧？所以更多的时候呢，我们离线和实时呢，可能会共用一套这个采集框架。啊，共用一套啊，那如果说我只有离线，那我用采集文件，然后写到HS，这个没问题，但如果说我有实时呢。
07:00
我们实时系统一般对接都是对接谁呀？实系统一般对接都是对接咱们的卡夫卡啊，都是对接卡夫卡啊，都对接卡夫卡，你像我们的SPA，你像我们的fli都提供了现成的卡夫卡的这个对接的对接对接的一个组件啊，直接跟卡卡对接啊，那所以说那既然是这样的话，所以说我们正常情况下，咱们采集通道可以这样去打啊，就是采集数据，然后呢，数据写到哪诶写到一个相当于一个中央的一个数据的一个，相当于一个数据总线吧，啊，咱们写到卡夫卡里啊，那写到卡夫卡里之后呢，那如果说我实时需要数据，那你就从卡夫卡里。拿走对不对，那我离那么那个那个离线需销数据，那怎么我也从卡卡里边拿对不对，是这样，相当于卡夫卡作为一个咱们的呃，一个数据的总线啊，或者说在这的卡夫卡还能起到一个什么作用呢？一个缓冲的作用，对不对，因为我数据呢，我呃可能我前面写的速率跟我后边分析的速率可能不匹配，对吧？啊，那我这样可以怎么可以用这个卡夫卡做一个缓冲。
08:01
啊是这样的啊，那所以说卡不卡在我们的采集通道当中呢，也是很常见的啊，一般就是采集数据，数据写到卡不卡啊，如果是离线，那你就再从卡夫卡到ACSS，如果实时的你就直接sparkli对接卡普卡就行，是这样的一个框架啊一这样一个架构，好再往下看。这是咱们说的日志，那还有咱们的业务数据，就是买circleq里边的，Circleq里边咱们就用scoop，这个后续咱们会学啊，好，那后边大家还看到我们还有两个东西啊，一个叫做log stach啊，一个叫做data叉，呃，Log stach呢，它首先它跟flu一样，也是用来采集日志的，那只不过logs stach呢，它通常是用在一个技术站里边的，哪个技术站呢，叫做elk。啊，Elk呢，是E指的是什么呀？Elastic search就是那个ES log sta指的什么呢？呃，啊，L指的是什么呢？指的就是这个love stash啊，那个K是什么呢？K是这个K班呢？呃，他们是一个技术站，这个技术站能够实现什么样的功能啊？首先呃L就是lo stash，用来做日志的采集传输，那e ece说什么呢？做数据的这个存储和分析啊，数据存储分析，K班呢，干什么？做可视化展示啊，K班呢是一个这个可视化展示工具啊，就是整个的这一套流程啊，一下就到到底了，从采集到最终的展示啊，一一下到底的是一个完整的技术站啊，也就说如果说咱们公司采用这个完整的技术站，那你采集数据呢，可能会使用lolash，它使用起来也很简单，跟flu一样，也是配置，配置相关，有有相当于有S有think啊，那是采集什么？呃数据，然后呢，数据写在什么地方也是一样的配置啊，咱们了解一下，那后边呢，还有一个date叉。
09:44
这个电面叉呢，实际上是咱们这个阿阿里的一个，呃这个呃数据的采集工具是阿里的，阿里的，然后它实际上跟scoop诶实现的功能是诶很像的，呃然后呢，State要比scoop更加灵活。
10:00
啊，灵活在什么地方？灵活在对数据源的支持上，呃，Scoop呢，我们只能实现这样的功能啊，就是将关系型数据库的数据和海杜op生态圈之间进行相互的传输，啊，也就只能是关型数据库，就是my circle Oracle这些东西啊，我可以使用school采集，但是data叉呢，它相对来说数据还要更广一些，它除了能采集咱们的关系型数据库，也能采集什么呢？非关系数据库，比如说咱们常见的非关系这个red啊，Model DB啊等等等等这个data上，它都能够进行采集。啊，所以说以后大家可以考虑这样的一个情况啊，看公司里边咱们的数据源是什么样的，如果数据源啊，我就是传统的关系数据库，那我用库没问题，如果咱们公司里边啊，这个业务系统里边用到了这些缓存，用到mango DB用到了red，那这时候咱们要想分析就得用data。啊，这个呢，它是按理的文档都是中文的，所以大家入门也是很快的啊，也是很方便的啊，这个大家也了解一下啊，那在咱们这个项目当中呢，我们肯定是采用大家学过的辅鲁卡卡雅S库啊再往下走，下面呢，是咱们数藏里边的这个数据存储相关的东西啊，那数据存储我们主要存储什么呢？首先第一个啊，咱们have的主体啊，是不是就是咱们收藏的主体就是have对吧？Have的数据存档HTS啊，这个必须得有，那其次呢，我们还会用到my circle啊，那my circle咱们的应用场景在哪呢？第一个。
11:28
啊，什么呀。Have的原数据是不是存在买里啊，那第二一个啊，我们后续是不是数仓后边会做报表啊，对不对，会做报表啊，那那个报表一般情况下我不会让他直接去对接咱们的have的，让他对接谁呢。对接买S，因为咱们报表系统对于have延迟太低了啊，这个不能满足要求，我延延延迟那个这个太高了啊，太高了，延迟太高了，那不不能满足我们的要求，所以说一般我们对于关型数据库啊，所咱们这个展示，那也就是说我们需要用my circleql去存储我们报表所需的这个结果数据啊，这是MYSQL啊，需要用到啊，那后边我们还有什么h base red modelgo DB这些东西呢，在咱们离线里边其实涉及不到啊，这都是啥，都是no搜索对吧，这个在我们的实时项目当中，诶，会用到啊，会用到啊，好，这个咱们就不多说了啊，再往下走，下边是关于数据的计算。
12:21
其实在我们离线系统当中，我们的数据计算呀，我们呃就用谁就够了呀，呃咱们就用have对吧，用have，当然have下边它肯定有不同的引擎啊，引擎默认FR一般情况下是不用的，那有那我会替换成什么呢？T子或者4SPA。啊，在咱们项目当中，我们替换成了Spark啊，然后边大家看到的有flink有STEM啊，那这些是干什么用的呀，是做实时分析的啊，实分STEM这个东西大家可能没听说过啊，这个其实是呃，我们最早的一代，这个实时分析引擎最早的一代，但是现在基本没人用了啊，那目前我们大家现在比较火的是谁啊，弗林卡啊，那Spark现在也在用啊，Spark里边呢，有一个组件叫做呃，这个Spark死追面是专门用来做实时处理的。
13:09
啊，那flink呢，它优势就是哎，实时处理处理，但是Spark能不能做离线处理呢。能啊，那flink能不能做批处理呢？离线处理能啊也能啊，都能，像他们俩这东西啊，都是既可以做实时又可以做离线啊，那在咱们的这个系统当中，我们是离线系统嘛，我们flink SPA用不到，Spark里边的实时组件咱也用不到，我们用到什么呢？我们会将have的引擎替换成Spark啊，这是咱们后续要做的工作啊，好，再往下走，现在是数据的查询，这个指的是及席查询啊，集齐查询，那非常多框架，Presal，麒麟in派德鲁伊，这都是机器查询框架啊，都都是，那我们在公司里边呢，用哪个的都有，非常非常多啊，非常非常多，那那这个，那当然机器查询呢，也不止这些啊，还有好多还有好多啊，那这里边我们不会没有办法把每一个都给大家讲了啊这个，呃，时间太长了，而且也没有必要啊，这些也没有必要，呃，咱们其实呃这些稽查群它就是什么，就是一个框架，它特点查的快，那我们用它就是干啥，还是写S对吧，还是写三，那所以说我们到时候会给大家讲这里边儿的这个几个。
14:17
比如讲price叫麒麟，咱们后续再说啊，那往下走。最后呢，就是咱们关于那个报表系统，咱们要做数据的可视化展示，对吧，那可视化展示呢，我们呃，实际上有这样的两套方案，一个是咱们公司呃，使用用加油的，让加油的同事呢，诶或者是前端的同事自己给以给我们做一个呃自己的报表系统自己开发啊，这是一种啊，那第二种方式呢，就是咱们可以用啥呀，用这种开源的报表系统啊，开源的啊，那咱们或者或者开源的，或者是那种第三方的需要付费的啊，有的需要付费，有的是开源的，比如咱们要学的这个呃，Superet，这就是一个开源的。啊，你像后边的亏个BI啊，什么date v啊，Date v这个也是呃阿里的啊，它也是需要这个付费使用的，得花钱才能用啊，但是那肯定是这个花钱的肯定要比这种开源的那个效果要炫酷一些，对吧？啊这是肯定的肯定的啊，那当然不管它这个可视化到底采用什么，那其实我们要做的就是啥呀。
15:15
咱们大数据开发叫做就是啥，你就是给他提供数据就行了，能理解吧，咱把数据算好给他放到my circleq上，他自己去拿，自己去展示啊，是这样的啊好，那这些东西我们大致了解一下啊，这是一些现有的这种开源这第三方的这种报表工具，那其实如果说我们要自己去做开发呢啊，自开发我们可以使用谁使用咱们这个，呃，百度的一个一叉的这个前端组件啊，它能够非常方便的去出各种各样的统计图啊，各种各样的统计图，这个如果大家要做个加构开发，应该不陌生啊，应该不陌生啊，这个东西咱们也是了解一下就可以了，后续咱们带大家简单看一下就行啊，啊，这是关于数据可视化，然后再往下。任务调度，呃，任务调度前面咱们不是讲过整个数仓需要一个调度框架去调度起来吗？咱们会用到谁呢？阿斯卡班或者是乌ZZ或者是airf flow啊，那后续我们在出仓里边用的是这个阿斯卡班啊阿卡班到时候再给大家讲这之间的区别啊啊咱往下看最后一个集群的监控，呃基因监控的是这个Z比克斯，这个呢，呃是呃，就是这个在监控这个呃领域里边就是比较呃知名的一个叫做Z比克斯啊，到时候咱们再给大家讲这个东西啊，其实这些东西啊，一般情况下啊，其实这个东西不应该归咱们管，就不应归咱们管，这应该都是呃运维去做这些事啊，但是咱们也得会才行啊。啊然后往下走，下面是一个这个艾LA啊，艾LA啊，这是干什么用的，是做源数据管理的，它是做那个血源依赖的啊学依赖啊好往下走，诶然后再往下呢，其实没有了，下面咱们还提到了一个质量管理，对吧？啊质量质量监控那个东西用谁呢？也有一个框架啊，叫做Griffin啊，Griffin是专门用来做质量监控的啊。
16:57
咱后续再说行，那这个技术选型这边咱们就，哎完事了就完事了啊，然后主要讲的是咱们技术选型的时候需要考虑的几个问题啊，从这几个方向去考虑，然后呢，哎，定下来了，咱们这个书藏里边我们要用到的些个框架啊，像第一个卡卡S库S和HS have SPA，麒麟super，阿斯卡湾ZS什么at特LAS这些标红的是咱们可能会用到的啊好，那我现在把视频录一下。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷数仓项目实战V3.0

（4/291）

7分1秒

001-尚硅谷-数据仓库-课程介绍

390

19分57秒

002-尚硅谷-数据仓库-项目概述

350

15分4秒

003-尚硅谷-项目分析-需求分析

300

17分26秒

004-尚硅谷-项目分析-技术选型

420

11分48秒

005-尚硅谷-项目分析-数据流程设计图

370

13分25秒

006-尚硅谷-项目分析-框架版本选择

380

10分2秒

007-尚硅谷-项目分析-服务器选型

270

11分59秒

008-尚硅谷-项目分析-集群规模规划

370

20分1秒

009-尚硅谷-日志采集-埋点目标数据

560

9分50秒

010-尚硅谷-日志采集-主流埋点方式(了解)

460

12分31秒

011-尚硅谷-日志采集-日志数据结构

400

4分42秒

012-尚硅谷-日志采集-埋点数据上报时机

340

14分25秒

013-尚硅谷-日志采集-服务器准备

420

8分40秒

017-尚硅谷-日志采集-JDK配置及免密配置

370

1分48秒

018-尚硅谷-日志采集-JDK分发

370

7分30秒

019-尚硅谷-日志采集-Linux环境变量说明

420

10分24秒

020-尚硅谷-日志采集-模拟生成日志

380

7分37秒

021-尚硅谷-日志采集-模拟日志脚本

380

5分25秒

022-尚硅谷-日志采集-Hadoop部署之环境变量配置

340

19分0秒

023-尚硅谷-日志采集-Hadoop部署之核心配置

520

12分27秒

024-尚硅谷-日志采集-Hadoop部署之其余配置

370

2分43秒

025-尚硅谷-日志采集-Hadoop部署之历史服务器和日志聚集配置

390

4分23秒

026-尚硅谷-日志采集-Hadoop部署之启动及测试

470

9分17秒

027-尚硅谷-日志采集-Hadoop项目经验之多目录存储

360

8分27秒

028-尚硅谷-日志采集-Hadoop项目经验之数据均衡

300

7分30秒

029-尚硅谷-日志采集-Hadoop项目经验之LZO压缩配置

330

5分21秒

030-尚硅谷-日志采集-Hadoop项目经验之LZO压缩测试

380

9分0秒

031-尚硅谷-日志采集-Hadoop项目经验之LZO切片说明

340

8分39秒

032-尚硅谷-日志采集-Hadoop项目经验之参数调优

290

27分28秒

033-尚硅谷-日志采集-Hadoop项目经验之基准测试

360

7分39秒

034-尚硅谷-日志采集-通道设计规划

440

9分38秒

035-尚硅谷-日志采集-Zookeeper部署

270

10分52秒

036-尚硅谷-日志采集-Kafka安装

360

20分5秒

037-尚硅谷-日志采集-Kafka常用脚本

340

5分16秒

038-尚硅谷-日志采集-Kafka常用脚本补充

240

12分51秒

039-尚硅谷-日志采集-Kafka压力测试

330

9分17秒

040-尚硅谷-日志采集-Kafka机器数量与分区数量计算

430

4分31秒

041-尚硅谷-日志采集-Flume安装

400

5分21秒

042-尚硅谷-日志采集-日志采集配置方案对比

340

8分42秒

043-尚硅谷-日志采集-监控日志Flume组件选择

420

23分13秒

044-尚硅谷-日志采集-监控日志Flume配置文件

340

17分57秒

045-尚硅谷-日志采集-监控日志Flume拦截器编码

430

12分7秒

046-尚硅谷-日志采集-监控日志Flume测试

400

28分24秒

047-尚硅谷-日志采集-Flume启停脚本

360

10分31秒

048-尚硅谷-日志采集-消费KafkaFlume功能分析

340

2分18秒

049-尚硅谷-日志采集-消费KafkaFlume中KafkaChannel注意事项

420

37分35秒

050-尚硅谷-日志采集-消费KafkaFlume配置文件

380

9分2秒

051-尚硅谷-日志采集-消费KafkaFlume时间戳拦截器

440

9分26秒

052-尚硅谷-日志采集-消费KafkaFlume测试

390

1分21秒

053-尚硅谷-日志采集-消费KafkaFlume启停脚本

390

4分38秒

054-尚硅谷-日志采集-消费KafkaFlume内存调整

320

3分23秒

055-尚硅谷-日志采集-小结

310

12分12秒

056-尚硅谷-业务数据采集-电商系统概述

370

7分7秒

057-尚硅谷-业务数据采集-电商系统基本概念

340

7分44秒

058-尚硅谷-业务数据采集-电商系统表结构说明

370

25分1秒

059-尚硅谷-业务数据采集-电商系统核心表概述

340

15分55秒

060-尚硅谷-业务数据采集-电商系统表结构讲解

410

7分58秒

061-尚硅谷-业务数据采集-电商系统表字段说明

380

9分27秒

062-尚硅谷-业务数据采集-模拟数据生成之mysql部署

370

3分40秒

063-尚硅谷-业务数据采集-模拟数据生成之建表

350

10分23秒

064-尚硅谷-业务数据采集-模拟数据生成之EZDM使用简明介绍

410

9分39秒

065-尚硅谷-业务数据采集-模拟数据生成之测试

470

7分11秒

066-尚硅谷-业务数据采集-Sqoop概述

400

7分12秒

067-尚硅谷-业务数据采集-Sqoop安装

370

4分53秒

068-尚硅谷-业务数据采集-Sqoop测试

360

26分13秒

069-尚硅谷-业务数据采集-Sqoop基础使用

440

7分4秒

070-尚硅谷-业务数据采集-Sqoop使用之SQL形式导入

350

23分40秒

071-尚硅谷-业务数据采集-数据同步策略

340

14分33秒

072-尚硅谷-业务数据采集-业务数据表同步策略划分

360

40分18秒

073-尚硅谷-业务数据采集-Sqoop导入脚本之基础说明

310

7分33秒

074-尚硅谷-业务数据采集-Sqoop导入脚本之同步策略说明

450

2分40秒

075-尚硅谷-业务数据采集-Sqoop导入脚本之测试

350

1分35秒

076-尚硅谷-业务数据采集-Sqoop导入脚本之存在问题分析

380

3分57秒

077-尚硅谷-业务数据采集-Sqoop导入脚本之数据验证

420

34分16秒

078-尚硅谷-数仓建模理论-分层概述

440

5分48秒

079-尚硅谷-数仓建模理论-数据集市

300

7分43秒

080-尚硅谷-数仓建模理论-命名规范

390

17分1秒

081-尚硅谷-数仓建模理论-范式理论之概述

370

8分27秒

082-尚硅谷-数仓建模理论-范式理论之函数依赖

380

13分9秒

083-尚硅谷-数仓建模理论-范式理论之三范式

420

12分35秒

084-尚硅谷-数仓建模理论-OLTP与OLAP概述

420

18分6秒

085-尚硅谷-数仓建模理论-关系建模与维度建模

520

15分2秒

086-尚硅谷-数仓建模理论-维度模型之事实表与维度表

500

17分0秒

087-尚硅谷-数仓建模理论-维度模型之事实表分类

380

9分27秒

088-尚硅谷-数仓建模理论-维度模型之模型分类

490

13分41秒

089-尚硅谷-数仓建模理论-数仓分层模型之整体概述

380

4分33秒

090-尚硅谷-数仓建模理论-数仓分层模型之ODS层

380

26分1秒

091-尚硅谷-数仓建模理论-数仓分层模型之DWD层

310

30分51秒

092-尚硅谷-数仓建模理论-数仓分层模型之DWD层维度建模演示

400

11分2秒

093-尚硅谷-数仓建模理论-数仓分层模型之DWS层与DWT层

370

2分10秒

094-尚硅谷-数仓建模理论-数仓分层模型之建模驱动

430

10分34秒

095-尚硅谷-数仓环境准备-Hive安装

400

4分30秒

096-尚硅谷-数仓环境准备-Hive引擎说明

410

8分35秒

097-尚硅谷-数仓环境准备-框架兼容性问题说明

330

23分32秒

098-尚硅谷-数仓环境准备-HiveOnSpark配置

590

10分7秒

099-尚硅谷-数仓环境准备-HiveOnSpark测试

480

17分14秒

100-尚硅谷-数仓环境准备-Yarn容量调度器之并发度问题演示

400

19分38秒

101-尚硅谷-数仓环境准备-Yarn容量调度器之多队列配置

350

8分21秒

102-尚硅谷-数仓环境准备-Yarn容量调度器之提交任务指定队列

380

100

8分24秒

103-尚硅谷-数仓环境准备-DataGrip使用介绍

380

101

16分43秒

104-尚硅谷-数仓环境准备-新数据准备

350

102

11分4秒

105-尚硅谷-数仓搭建-ODS层日志表之建表语句

380

103

5分32秒

106-尚硅谷-数仓搭建-ODS层日志表之数据装载

360

104

7分58秒

107-尚硅谷-数仓搭建-ODS层日志表之装载脚本

330

105

4分33秒

108-尚硅谷-数仓搭建-扩展之Shell脚本引号总结

370

106

6分18秒

109-尚硅谷-数仓搭建-ODS层业务表之建表语句

340

107

4分28秒

110-尚硅谷-数仓搭建-ODS层业务表之装载脚本

420

108

8分8秒

111-尚硅谷-数仓搭建-DWD层日志表之数据结构回顾

400

109

7分34秒

112-尚硅谷-数仓搭建-DWD层日志表之Hive解析JSON函数说明

450

110

6分3秒

113-尚硅谷-数仓搭建-DWD层日志表之日志解析思路分析

340

111

7分26秒

114-尚硅谷-数仓搭建-DWD层日志表之启动表建表语句

330

112

9分0秒

115-尚硅谷-数仓搭建-DWD层日志表之启动表数据装载

360

113

4分28秒

116-尚硅谷-数仓搭建-DWD层日志表之页面表

380

114

9分14秒

117-尚硅谷-数仓搭建-DWD层日志表之动作表解析思路

360

115

5分42秒

118-尚硅谷-数仓搭建-回顾之explode函数使用说明

340

116

3分16秒

119-尚硅谷-数仓搭建-DWD层日志表之动作表UDTF函数设计

270

117

11分16秒

120-尚硅谷-数仓搭建-DWD层日志表之动作表UDTF函数说明

420

118

27分6秒

121-尚硅谷-数仓搭建-DWD层日志表之动作表UDTF函数编写(一)

380

119

8分49秒

122-尚硅谷-数仓搭建-DWD层日志表之动作表UDTF函数编写(二)

390

120

3分38秒

123-尚硅谷-数仓搭建-DWD层日志表之动作表UDTF函数注意事项

300

121

6分10秒

124-尚硅谷-数仓搭建-DWD层日志表之动作表UDTF函数创建

360

122

8分6秒

125-尚硅谷-数仓搭建-DWD层日志表之动作表数据装载

420

123

4分47秒

126-尚硅谷-数仓搭建-DWD层日志表之曝光表

450

124

9分8秒

127-尚硅谷-数仓搭建-DWD层日志表之错误表

400

125

9分57秒

128-尚硅谷-数仓搭建-DWD层数据装载之lzo索引文件识别问题

340

126

5分46秒

129-尚硅谷-数仓搭建-DWD层日志表之数据装载脚本

370

127

4分54秒

130-尚硅谷-数仓搭建-DWD层业务表之维度模型概述

340

128

11分5秒

131-尚硅谷-数仓搭建-DWD层业务表之商品维度表

330

129

1分50秒

132-尚硅谷-数仓搭建-DWD层业务表之优惠券维度表

430

130

11分44秒

133-尚硅谷-数仓搭建-DWD层业务表之活动维度表

350

131

3分40秒

134-尚硅谷-数仓搭建-DWD层业务表之地区维度表

450

132

16分34秒

135-尚硅谷-数仓搭建-DWD层业务表之时间维度表

340

133

19分22秒

136-尚硅谷-数仓搭建-DWD层业务表之支付事实表

380

134

7分22秒

137-尚硅谷-数仓搭建-DWD层业务表之退款事实表

300

135

9分45秒

138-尚硅谷-数仓搭建-DWD层业务表之评价事实表

390

136

7分8秒

139-尚硅谷-数仓搭建-DWD层业务表之订单明细实表建表语句

380

137

14分1秒

140-尚硅谷-数仓搭建-DWD层业务表之订单明细事实表数据装载(一)

310

138

9分26秒

141-尚硅谷-数仓搭建-DWD层业务表之订单明细事实表数据装载(二)

300

139

10分46秒

142-尚硅谷-数仓搭建-DWD层业务表之订单明细事实表数据装载(三)

290

140

7分56秒

143-尚硅谷-数仓搭建-DWD层业务表之加购与收藏事实表

390

141

10分16秒

144-尚硅谷-数仓搭建-DWD层业务表之优惠券领用事实表分析

390

142

7分48秒

145-尚硅谷-数仓搭建-DWD层业务表之优惠券领用事实表分区规划

380

143

9分35秒

146-尚硅谷-数仓搭建-DWD层业务表之优惠券领用事实表数据装载思路

320

144

16分4秒

147-尚硅谷-数仓搭建-DWD层业务表之优惠券领用事实表数据装载

330

145

9分53秒

148-尚硅谷-数仓搭建-DWD层业务表之订单事实表建表语句

430

146

43分22秒

149-尚硅谷-数仓搭建-DWD层业务表之订单事实表数据装载

340

147

17分10秒

150-尚硅谷-数仓搭建-DWD层业务表之拉链表概述

330

148

15分19秒

151-尚硅谷-数仓搭建-DWD层业务表之拉链表制作过程概述

350

149

17分40秒

152-尚硅谷-数仓搭建-DWD层业务表之用户维度表(一)

400

150

19分44秒

153-尚硅谷-数仓搭建-DWD层业务表之用户维度表(二)

390

151

8分10秒

154-尚硅谷-数仓搭建-DWD层业务表之数据装载脚本

340

152

28分38秒

155-尚硅谷-数仓搭建-DWS&DWT层之业务术语

360

153

14分11秒

156-尚硅谷-数仓搭建-DWS&DWT层之日期函数

380

154

7分22秒

157-尚硅谷-数仓搭建-DWS&DWT层之复杂数据类型使用说明

330

155

16分3秒

158-尚硅谷-数仓搭建-DWS层之会员主题每日汇总表建表语句

400

156

47分40秒

159-尚硅谷-数仓搭建-DWS层之会员主题每日汇总表数据装载

270

157

24分16秒

160-尚硅谷-数仓搭建-DWT层之会员主题累积汇总表建表语句

310

158

6分37秒

161-尚硅谷-数仓搭建-DWT层之会员主题累积汇总表数据装载思路分析

390

159

14分46秒

162-尚硅谷-数仓搭建-DWT层之会员主题累积汇总表数据装载(一)

390

160

29分43秒

163-尚硅谷-数仓搭建-DWT层之会员主题累积汇总表数据装载(二)

360

161

5分43秒

164-尚硅谷-数仓搭建-DWS层之设备主题每日汇总表建表语句

330

162

13分7秒

165-尚硅谷-数仓搭建-DWS层之设备主题每日汇总表数据装载

370

163

6分35秒

166-尚硅谷-数仓搭建-DWT层之设备主题累积汇总表建表语句

340

164

13分45秒

167-尚硅谷-数仓搭建-DWT层之设备主题累积汇总表初次装载说明

390

165

9分28秒

168-尚硅谷-数仓搭建-DWT层之设备主题累积汇总表数据装载

480

166

1分20秒

169-尚硅谷-数仓搭建-DWS层之商品主题每日汇总表建表语句

370

167

23分6秒

170-尚硅谷-数仓搭建-DWS层之商品主题每日汇总表数据装载(一)

390

168

24分27秒

171-尚硅谷-数仓搭建-DWS层之商品主题每日汇总表数据装载(二)

430

169

9分25秒

172-尚硅谷-数仓搭建-DWS层之商品主题每日汇总表数据装载(二)

320

170

12分3秒

173-尚硅谷-数仓搭建-DWT层之商品主题累积汇总表

400

171

20分48秒

174-尚硅谷-数仓搭建-DWS&DWT层之活动主题汇总表

430

172

16分29秒

175-尚硅谷-数仓搭建-DWS&DWT层之地区主题汇总表

430

173

7分5秒

176-尚硅谷-数仓搭建-DWS&DWT层之数据装载脚本

401

174

45分43秒

177-尚硅谷-数仓需求-设备主题之活跃设备数

350

175

4分36秒

178-尚硅谷-数仓需求-设备主题之新增&沉默&流失需求说明

330

176

6分13秒

179-尚硅谷-数仓需求-设备主题之新增设备数需求讲解

260

177

4分9秒

180-尚硅谷-数仓需求-设备主题之沉默用户数需求讲解

380

178

2分51秒

181-尚硅谷-数仓需求-设备主题之流失用户数需求讲解

370

179

8分5秒

182-尚硅谷-数仓需求-设备主题之留存率需求说明

430

180

2分2秒

183-尚硅谷-数仓需求-设备主题之回流用户数需求说明(一)

430

181

2分9秒

184-尚硅谷-数仓需求-设备主题之回流用户数需求说明(二)

400

182

1分57秒

185-尚硅谷-数仓需求-设备主题之最近三周连续活跃用户数需求说明

390

183

2分15秒

186-尚硅谷-数仓需求-设备主题之七天内连续三天活跃需求说明

360

184

16分33秒

187-尚硅谷-数仓需求-设备主题之连续三周活跃需求讲解(思路一)

420

185

8分26秒

188-尚硅谷-数仓需求-设备主题之连续三周活跃需求讲解(思路二)

330

186

14分24秒

189-尚硅谷-数仓需求-设备主题之回流用户数需求讲解

370

187

21分0秒

190-尚硅谷-数仓需求-设备主题之留存率需求讲解(思路一)

410

188

9分28秒

191-尚硅谷-数仓需求-设备主题之留存率需求讲解(思路二)

410

189

20分19秒

192-尚硅谷-数仓需求-设备主题之七天内连续三天活跃需求讲解(思路一)

350

190

13分4秒

193-尚硅谷-数仓需求-设备主题之七天内连续三天活跃需求讲解(思路二)

330

191

4分44秒

194-尚硅谷-数仓需求-会员主题之会员信息统计需求说明

370

192

5分15秒

195-尚硅谷-数仓需求-会员主题之漏斗分析需求说明

390

193

1分51秒

196-尚硅谷-数仓需求-商品主题之商品个数需求说明

340

194

10分1秒

197-尚硅谷-数仓需求-会员主题之会员信息统计需求讲解

330

195

21分8秒

198-尚硅谷-数仓需求-会员主题之漏斗分析需求讲解(思路一)

370

196

6分16秒

199-尚硅谷-数仓需求-会员主题之漏斗分析需求讲解(思路二)

270

197

5分51秒

200-尚硅谷-数仓需求-商品主题之商品个数需求讲解

310

198

8分5秒

201-尚硅谷-数仓需求-商品主题之全局TopN需求说明

380

199

2分45秒

202-尚硅谷-数仓需求-商品主题之分组TopN需求说明

390

200

4分28秒

203-尚硅谷-数仓需求-商品主题之销量排行需求讲解

330

201

3分21秒

204-尚硅谷-数仓需求-商品主题之退款率排行需求讲解

390

202

2分44秒

205-尚硅谷-数仓需求-商品主题之差评率排行需求讲解

360

203

10分57秒

206-尚硅谷-数仓需求-商品主题之分组TopN需求讲解

330

204

7分32秒

207-尚硅谷-数仓需求-营销主题之下单&支付统计需求说明

350

205

9分14秒

208-尚硅谷-数仓需求-营销主题之品怕复购率需求说明

380

206

3分44秒

209-尚硅谷-数仓需求-营销主题之下单统计需求讲解

370

207

11分45秒

210-尚硅谷-数仓需求-营销主题之支付统计需求讲解

350

208

16分54秒

211-尚硅谷-数仓需求-营销主题之复购率需求讲解(思路一)

370

209

9分18秒

212-尚硅谷-数仓需求-营销主题之复购率需求讲解(思路二)

460

210

7分48秒

213-尚硅谷-数仓需求-ADS层数据导入脚本

400

211

14分47秒

214-尚硅谷-全流程调度-工作流程概述

360

212

11分26秒

215-尚硅谷-全流程调度-调度系统概述

400

213

7分54秒

216-尚硅谷-全流程调度-Azkaban部署模式概述

380

214

2分57秒

217-尚硅谷-全流程调度-Azkaban安装之安装包准备

380

215

5分53秒

218-尚硅谷-全流程调度-Azkaban安装之数据库准备

340

216

11分25秒

219-尚硅谷-全流程调度-Azkaban安装之Exec部署

400

217

10分6秒

220-尚硅谷-全流程调度-Azkaban安装之Web部署

470

218

7分53秒

221-尚硅谷-全流程调度-Azkaban使用之入门案例

350

219

5分30秒

222-尚硅谷-全流程调度-Azkaban使用之工作流程配置文件说明

390

220

11分22秒

223-尚硅谷-全流程调度-Azkaban使用之Yaml文件格式概述

390

221

6分34秒

224-尚硅谷-全流程调度-Azkaban使用之任务依赖配置

420

222

4分23秒

225-尚硅谷-全流程调度-Azkaban使用之自动失败重试

380

223

3分56秒

226-尚硅谷-全流程调度-Azkaban使用之手动失败重试

390

224

6分57秒

227-尚硅谷-全流程调度-Azkaban使用之定时调度

410

225

9分35秒

228-尚硅谷-全流程调度-Azkaban使用之邮件配置

470

226

4分35秒

229-尚硅谷-全流程调度-Azkaban使用之邮件通知演示

310

227

5分14秒

230-尚硅谷-全流程调度-实操之Sqoop导出功能说明

440

228

15分3秒

231-尚硅谷-全流程调度-实操之MySQL建库建表

330

229

28分36秒

232-尚硅谷-全流程调度-实操之Sqoop导出脚本

380

230

6分58秒

233-尚硅谷-全流程调度-实操之新数据准备

360

231

7分13秒

234-尚硅谷-全流程调度-实操之Azkaban启停脚本

370

232

11分9秒

235-尚硅谷-全流程调度-实操之Azkaban工作流程配置文件编写

360

233

5分22秒

236-尚硅谷-全流程调度-实操之Azkaban工作流传参说明

440

234

9分34秒

237-尚硅谷-全流程调度-实操之Azkaban全流程调度演示

360

235

8分16秒

238-尚硅谷-全流程调度-实操之Azkaban问题总结

360

236

4分45秒

239-尚硅谷-数据可视化-概述

450

237

6分22秒

240-尚硅谷-数据可视化-Superset概述

370

238

15分56秒

241-尚硅谷-数据可视化-Superset安装之Miniconda部署

520

239

9分43秒

242-尚硅谷-数据可视化-Superset安装之准备Python3.6环境

430

240

7分2秒

243-尚硅谷-数据可视化-Superset安装

530

241

5分31秒

244-尚硅谷-数据可视化-Superset安装之初始化

490

242

6分20秒

245-尚硅谷-数据可视化-Superset安装之启动

400

243

9分52秒

246-尚硅谷-数据可视化-Superset安装之启停脚本

380

244

12分40秒

247-尚硅谷-数据可视化-Superset使用之对接数据源

450

245

13分39秒

248-尚硅谷-数据可视化-Superset使用之趋势图示例

780

246

7分29秒

249-尚硅谷-数据可视化-Superset使用之地图与饼状图示例

980

247

5分17秒

250-尚硅谷-数据可视化-Superset使用之编辑仪表盘

540

248

4分46秒

251-尚硅谷-即席查询-概述

370

249

4分42秒

252-尚硅谷-即席查询-Kylin概述

370

250

38分9秒

253-尚硅谷-即席查询-Kylin前置概念

310

251

12分46秒

254-尚硅谷-即席查询-Kylin基础架构

320

252

6分35秒

255-尚硅谷-即席查询-Kylin特点

310

253

14分12秒

256-尚硅谷-即席查询-Kylin安装之HBase部署

340

254

2分30秒

257-尚硅谷-即席查询-Kylin安装之环境变量准备

380

255

13分19秒

258-尚硅谷-即席查询-Kylin安装之兼容性问题说明

380

256

4分15秒

259-尚硅谷-即席查询-Kylin启动

440

257

30分54秒

260-尚硅谷-即席查询-Kylin使用之基础用法

360

258

21分49秒

261-尚硅谷-即席查询-Kylin使用之维度表重复key问题说明

380

259

8分29秒

262-尚硅谷-即席查询-Kylin使用之查询

390

260

12分39秒

263-尚硅谷-即席查询-Kylin使用之RestAPI使用概述

260

261

9分21秒

264-尚硅谷-即席查询-Kylin使用之每日定时构建脚本

440

262

6分42秒

265-尚硅谷-即席查询-Kylin原理之基础概念回顾

330

263

8分21秒

266-尚硅谷-即席查询-Kylin原理之Cube存储原理

480

264

15分2秒

267-尚硅谷-即席查询-Kylin原理之Cube构建原理

320

265

18分0秒

268-尚硅谷-即席查询-Kylin优化之衍生维度

400

266

13分24秒

269-尚硅谷-即席查询-Kylin优化之聚合组

340

267

15分23秒

270-尚硅谷-即席查询-Kylin优化之Rowkey调整

330

268

8分51秒

271-尚硅谷-即席查询-Kylin优化之并发粒度优化

370

269

7分13秒

272-尚硅谷-即席查询-KylinBI集成之JDBC

390

270

11分47秒

273-尚硅谷-即席查询-KylinBI集成之Zeppelin

390

271

25分6秒

274-尚硅谷-即席查询-Presto概述

340

272

23分45秒

275-尚硅谷-即席查询-Presto安装之Server部署

370

273

5分56秒

276-尚硅谷-即席查询-Presto安装之命令行客户端部署

340

274

8分54秒

277-尚硅谷-即席查询-Presto安装之LZO 压缩格式说明

320

275

8分14秒

278-尚硅谷-即席查询-Presto安装之可视化客户端部署

440

276

17分31秒

279-尚硅谷-即席查询-Presto使用注意事项

390

277

13分49秒

280-尚硅谷-集群监控-Zabbix概述

460

278

7分45秒

281-尚硅谷-集群监控-Zabbix安装之服务器环境准备

310

279

12分29秒

282-尚硅谷-集群监控-Zabbix安装之yum仓库配置

350

280

2分8秒

283-尚硅谷-集群监控-Zabbix安装之下载安装

380

281

10分9秒

284-尚硅谷-集群监控-Zabbix安装之修改配置文件

310

282

2分21秒

285-尚硅谷-集群监控-Zabbix启动

330

283

3分37秒

286-尚硅谷-集群监控-Zabbix安装之web配置

320

284

5分3秒

287-尚硅谷-集群监控-Zabbix使用之术语

400

285

7分17秒

288-尚硅谷-集群监控-Zabbix使用之创建主机

360

286

13分43秒

289-尚硅谷-集群监控-Zabbix使用之配置监控项

330

287

6分13秒

290-尚硅谷-集群监控-Zabbix使用之配置触发器

350

288

3分18秒

291-尚硅谷-集群监控-Zabbix使用之配置报警媒介

380

289

7分56秒

292-尚硅谷-集群监控-Zabbix使用之配置动作

320

290

2分12秒

293-尚硅谷-集群监控-Zabbix使用之测试

430

291

12分59秒

294-尚硅谷-集群监控-Zabbix使用之模板

390

004-尚硅谷-项目分析-技术选型

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐