文章/答案/技术大牛

发布

首页视频100.尚硅谷_Flink项目-电商用户行为分析_项目框架搭建

100.尚硅谷_Flink项目-电商用户行为分析_项目框架搭建

2022-12-022022-12-02 16:02:28播放38

点赞0 收藏 0

尚硅谷大数学科--选学技术丰富/尚硅谷Flink从入门到实战（scala版）/视频/100.尚硅谷_Flink项目-电商用户行为分析_项目框架搭建.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
哎，我们已经知道这个项目到底是怎么样的一个需求，也知道该怎么做了，那接下来就是实际上手把这个项目搭建起来了，那当然我们还是要搭建一个main项目，我们用skyla去写一个ma项目，所以首先打开idea，然后我们去新建一个project，好，那当然这里边我们还是加上当前的这个group ID com.at硅谷，然后artifact ID，当前我们叫用户行为分析嘛，啊，我就叫user behavior analysis，好把它创建出来，然后接下来首先大家想到进去之后应该就是考虑依赖了，对吧？呃，现在我们先不要着急，我们先想一下，当前这是一个真实的，呃，真实应用场景下的这样一个项目啊，那我们其实在做这个项目构建的时候呢，你得考虑我们项目里边的层级结构，整个大的这个范畴，我们管它叫user behavior analysis，对吧，用户行为。
01:00
分析，但是里边其实我们分了好多小模块啊，对吧，我们分了五大模块，然后呃，九个不同的小需求，所以这里边其实我们在里边应该是构建一个父子项目对吧？啊，在当前的这个大的project下边再去创建下下游的这些，这些啊就叫我我们叫拈，叫modu对吧？哎，所以接下来我们应该先创建对应的这个子拈，当前我们第一个拈，那就是实时热门商品统计分析了，对吧？那这里边我们就叫hot items，就是热门商品，然后analysis，这也是一个统计分析啊，我直接加上这个后缀，这就表示到底是风控类的指标，监控类的指标，还是统计分析类的指标，好我先把它创建出来，大家看这创建出来之后，负项目这边的这个POM文件里边，这里它的package变成了POM，对吧？多了一个子模块，叫做hot item，呃，It。
02:00
Analysis，而此模块这里呢，诶直接也多了一个po文件，指定了当前它的这个parent，就是我们上面的负项，所以接下来其实我们主要的这个代码应该会放在哪里去呢？应该都放在这个子项目下边，对吧？所以负项目我们只是做一个，诶就是整体的管理和规划就可以了啊那这里我们直接把这个副项目的source文件文件夹就可以直接删掉了，然后接下来我们看依赖，哎，那依赖整个这个项目里边到底要用到哪些依赖呢？诶大家可能会想到最起码我们要用flink去做数据统计分析嘛，那当然要用到flink对吧？啊，还是之前我们说的这个，呃，引入这个flink和和这个flink streaming啊，这两个包肯定是要引入的，然后另外大家想到实际应用场景里边，是不是最常见的数据源，应该就是前面要接上卡夫卡呀，哎，所以这里面卡夫卡也肯定是要的，对吧，呃，夫卡的那个连接器依赖。
03:00
哎，相关的依赖肯定都要引入，所以这里边我们能想到的这是最底层最需要的东西，我们就直接把它放在副项目的po沫文件夹下啊，哎，那在这个之前之前我们在那个本身在理论学习的过程当中，大家都是一个依赖，一一个依赖直接引入就完了，我们在这里如果要是真实做项目的时候呢，诶，大家注意一下这个规范化的一个过程啊，我们最好是要先去定义一些properties，大家看这个properties里边主要定义的是什么呢？这里边其实都是版本信息对吧？啊，因为这里边假如说我们当前这个项目大了，有可能下面的拈子拈是不同的同事合作去开发的，那假如说你自己的这个版本，就是你引入依赖的时候，你引一个他引一个，然后我们不同的这些组件呢，引用的版本还不一样，那最后就会导致出现版本冲突，对吧，有些地方就会出现莫名其妙的bug，所以这里边为了统一管理版本，我们一般情况都。
04:00
都是在负项目的pop文件里边，直接把它声明出来，大家看这个flink version对吧，我们当前是一点十点一，然后这个scla的那个bary version2.12对吧？啊，另外还有一个卡夫卡的version，我这里边给的是2.2.0啊，这个无所谓啊，大家看，就是我们当前需要的这个，我这里边的卡夫卡version，其实指的是就是卡夫卡的客户端的那个那个version对吧，就后边本身卡夫卡，呃，就是我们那个server的那个version，大家知道，其实到这个0.11 0.12啊后面，呃呃，我们引入那个连接器的时候，到时候我们去单独再去看就可以了，这里边主要是卡夫卡client的那个版本啊，然后我们直接把这几个先先引入进来，我就直接copy到po文件里面来了，然后有了这几个之后，接下来我们看要哪些依赖呢？哎，Flink对吧，Flink scale啊，然后flink streaming scale对吧，这两个你要用flink嘛，这两个必备，然后后边这个遇版。
05:00
的地方就用Dollar符，然后引入前面我们指定的这个property就可以了，就有点像我们在shell脚本里边写的那个引入变量的那种方式啊，Dollar符加一个大括号，或者有点像我们SC拉里边做这个呃，模板字符串啊，里边去做替换的时候那个写法类似啊，那接下来还需要，呃，那当然还需要这个卡夫卡对吧？卡夫卡这里边我引入的是卡夫卡的那个client啊，然后后边是针对应的那个skyla的那个版本，还是2.12，然后另外还有一个非常重要的是弗link卡夫卡连接器，然后大家发现啊，之前我们flink卡夫卡连接器后边不是有一个那个0.11指定当前卡夫卡serve的版本吗？诶，那现在怎么就这这里面没有了呢？诶，那这里边如果没有的话，我们用的就是一个通用连接器的版本啊，就是在这个2.11之后啊，是给我们弗link给我们提供了这个卡普塔的通用连接器的，一开始的时候呢，是这个通。
06:00
连接器还不够稳定，所以一般项目里边推荐大家还是指定具体的版本啊，当然到现在啊，就越来越到后来之后发现这个通用连接器已经越来越趋于稳定了，那我们就不需要去再做具体版本的定义了，对吧？通用连接器它会自动跟踪我们当前这个卡夫卡最新的版本去做对应的调整连接都可以实现啊，那这个就没有对应里边那个卡夫卡serve的版本了，好啊，这里边我们要的就是这些依赖，直接把它全部copy过来，这是dependences先放在这里，然后后面大家一定还记得，后边还需要引入呃，Build里边的一些插件，对吧？Plugins这里边还是要引入的，我们这里边呢，同样还是引入了一个scalela plug in对吧？呃，进行这个编译的这个组件，另外呢，还还引入了一个ma assembly planning方便大家打包，对吧？呃，一个编译插件，一个打包创插件，跟我们之前在里。
07:00
论部分引入项目里边引入的那个插件是一模一样的啊，这主要是方便我们实际提交操作，好，那我就把这个直接copy过来，引入build好放在下边，然后把这些东西都引入之后啊，大家应该可以看到，诶，我们在这里边刷新一下啊，应该能看到当前的这个user behavior下边有这样的诶，四个对应的依赖对吧？另外我们plugin下边这里边引入了maven assem打包的这个插件，另外呢，还引入了我们编编译的这个skyla maven plug in对吧？这两个插件都有，而且我们会发现诶这个子项目泡门子子模块啊，泡文件里边要引入别的东西吗？好像没什么需要专门引入的对吧？好像用到的也就是这些，而且我们发现负项目引入之后，子项目里面就都有了，对吧？诶，所以负项目这里边其实是一个通用引入，我们直接把它全放进来就完事了啊，那接下来就直接写这个子项目里边写实现的代码就可以了啊，那接下来我们就在子项目里边，具体代码当然是要放在source main下边对吧？诶，这里面大家看到还有这个，呃，本身默认的是这个Java这个目录啊，那大家可以在这去新建一个呃，Directory，然后去market as，如呃这个source root对吧？或者我这里边如果要是想偷懒的话，直接去改个名也是可以的，对吧？你直接把它改成skyla，我直接去用也是没问题，然后接下来我想要的数据，那是不是应该要放在当前的resources目录下边来啊，对吧？哎，所以这里边我需要把之前大家提到的这个user behavior这个数。
08:45
据直接复制过来，直接放到我们当前的resources目录下，接下来我们读取数据的时候，直接从这个文件里边读取就可以了啊，大家看到这个里边主要的这个数据一共有40多万条啊，啊，这是一个真实的电商网站的数据，当然已经做过ETL了，大家看到就是按逗号分割的一个CSV文件啊，对应的每一个字段我们也都已经它知道它是代表什么含义了，接下来我们要写代码的话，那当然就应该是在这个skyla下边直接去new一个skyla class了，对吧？啊那当然了，就是大家还记得就是我们在添加，在新建一个这个微问项目的时候，大家最好是要把那个就是把那个skyla的那个项目支持框架支持要引入，对吧？我这里边是已经引入了，所以说大家看到就是没有问题的，要不然的话，你这里边还不能直接去用这个skyla class啊好，我们先把它当前自然是一个。
09:45
分利对象object了，对吧？啊，就是直接我应该是可以直接执行运行起来的一个代码嘛，所以当然是一个object，然后当前我带上包名定义啊，当前的这个对象名称啊，com.at硅谷点啊，当前我这个是hot it analysis，另外当前的这个对象名我就叫做hot it，把它创建出来，所以接下来我们的代码直接在这个里边去实现就可以了啊，我们的整个这个项目的框架就先搭起来了。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷Flink从入门到实战（scala版）

（100/137）

10分49秒

001.尚硅谷_Flink-Flink简介

500

19分45秒

002.尚硅谷_Flink-Flink应用场景

480

11分3秒

003.尚硅谷_Flink-流式处理的提出

370

15分16秒

004.尚硅谷_Flink-流式处理的演变

340

16分33秒

005.尚硅谷_Flink-Flink的特点

340

23分57秒

006.尚硅谷_Flink-批处理wordcount

520

20分13秒

007.尚硅谷_Flink-流处理wordcount

370

19分14秒

008.尚硅谷_Flink-流处理wordcount扩展测试和说明

410

26分46秒

009.尚硅谷_Flink-Flink集群部署

470

22分34秒

010.尚硅谷_Flink-提交Job

400

7分30秒

011.尚硅谷_Flink-命令行提交Job

350

12分50秒

012.尚硅谷_Flink-其它方式集群部署

360

8分35秒

013.尚硅谷_Flink-运行时架构_运行时组件

380

13分22秒

014.尚硅谷_Flink-运行时架构_作业提交流程

420

16分27秒

015.尚硅谷_Flink-运行时架构_任务调度原理（一）_并行度和slot

350

17分22秒

016.尚硅谷_Flink-运行时架构_任务调度原理（二）_slot共享

460

6分15秒

017.尚硅谷_Flink-运行时架构_任务调度原理（三）_slot共享示例

290

25分35秒

018.尚硅谷_Flink-运行时架构_任务调度原理（四）_执行图和任务链

290

12分20秒

019.尚硅谷_Flink-运行时架构_任务调度原理（五）_自定义任务调度规则

340

16分18秒

020.尚硅谷_Flink-流处理API_Source（一）_从集合和文件读取数据

380

21分32秒

021.尚硅谷_Flink-流处理API_Source（二）_从Kafka读取数据

430

24分49秒

022.尚硅谷_Flink-流处理API_Source（三）_自定义Source

410

6分49秒

023.尚硅谷_Flink-流处理API_Transform（一）_简单转换算子

320

19分15秒

024.尚硅谷_Flink-流处理API_Transform（二）_简单分组聚合

380

11分20秒

025.尚硅谷_Flink-流处理API_Transform（三）_reduce聚合

320

12分23秒

026.尚硅谷_Flink-流处理API_Transform（四）_分流操作

350

19分54秒

027.尚硅谷_Flink-流处理API_Transform（五）_合流操作

290

9分39秒

028.尚硅谷_Flink-流处理API_Flink支持的数据类型

420

19分40秒

029.尚硅谷_Flink-流处理API_函数类和富函数类

280

18分54秒

030.尚硅谷_Flink-流处理API_Sink（一）_文件

410

10分44秒

031.尚硅谷_Flink-流处理API_Sink（二）_Kafka

430

18分29秒

032.尚硅谷_Flink-流处理API_Sink（三）_Redis

360

16分42秒

033.尚硅谷_Flink-流处理API_Sink（四）_ElasticSearch

350

17分47秒

034.尚硅谷_Flink-流处理API_Sink（五）_MySQL

480

7分21秒

035.尚硅谷_Flink-流处理API_Window API_窗口概念

360

10分12秒

036.尚硅谷_Flink-流处理API_Window API_窗口类型

330

27分16秒

037.尚硅谷_Flink-流处理API_Window API_窗口分配器

450

20分59秒

038.尚硅谷_Flink-流处理API_Window API_窗口函数及其它可选API

410

15分5秒

039.尚硅谷_Flink-流处理API_Window API_窗口计算测试

270

17分56秒

040.尚硅谷_Flink-时间语义

300

4分32秒

041.尚硅谷_Flink-时间语义的设置

350

19分5秒

042.尚硅谷_Flink-Watermark概念

370

15分56秒

043.尚硅谷_Flink-Watermark原理和特点

320

8分7秒

044.尚硅谷_Flink-Watermark传递

260

16分32秒

045.尚硅谷_Flink-Watermark代码中引入

290

7分8秒

046.尚硅谷_Flink-自定义Watermark生成机制

290

16分10秒

047.尚硅谷_Flink-事件时间语义下的窗口测试

360

9分20秒

048.尚硅谷_Flink-窗口起始点的确定

360

8分7秒

049.尚硅谷_Flink-状态管理（一）_状态的概念

400

15分13秒

050.尚硅谷_Flink-状态管理（二）_算子状态和键控状态

290

27分24秒

051.尚硅谷_Flink-状态管理（三）_状态在代码中的定义和使用

330

17分14秒

052.尚硅谷_Flink-状态编程示例（一）

380

17分29秒

053.尚硅谷_Flink-状态编程示例（二）

410

23分23秒

054.尚硅谷_Flink-ProcessFuntion_基本概念和使用

360

32分49秒

055.尚硅谷_Flink-ProcessFuntion_定时器应用示例

320

9分44秒

056.尚硅谷_Flink-ProcessFuntion_侧输出流应用示例

360

15分35秒

057.尚硅谷_Flink-状态后端

390

13分30秒

058.尚硅谷_Flink-容错机制_检查点概念和原理

280

25分45秒

059.尚硅谷_Flink-容错机制_检查点算法

380

26分28秒

060.尚硅谷_Flink-容错机制_checkpoint配置

350

8分20秒

061.尚硅谷_Flink-容错机制_重启策略配置

440

7分31秒

062.尚硅谷_Flink-保存点

460

10分45秒

063.尚硅谷_Flink-状态一致性_基本概念

400

8分42秒

064.尚硅谷_Flink-状态一致性_Flink端到端状态一致性的保证

390

23分34秒

065.尚硅谷_Flink-状态一致性_幂等写入和事务写入

410

18分19秒

066.尚硅谷_Flink-状态一致性_Flink与Kafka连接的状态一致性

400

22分2秒

067.尚硅谷_Flink-Table API和Flink SQL_基本概念和示例程序

400

9分21秒

068.尚硅谷_Flink-Table API和Flink SQL_基本程序结构

340

15分42秒

069.尚硅谷_Flink-Table API和Flink SQL_表执行环境

360

19分13秒

070.尚硅谷_Flink-Table API和Flink SQL_表的概念和从文件读取数据

410

9分28秒

071.尚硅谷_Flink-Table API和Flink SQL_从Kafka读取数据

340

11分3秒

072.尚硅谷_Flink-Table API和Flink SQL_表的查询转换

390

8分24秒

073.尚硅谷_Flink-Table API和Flink SQL_DataStream和表的转换

400

25分13秒

074.尚硅谷_Flink-Table API和Flink SQL_输出到文件

320

10分50秒

075.尚硅谷_Flink-Table API和Flink SQL_更新模式

310

17分40秒

076.尚硅谷_Flink-Table API和Flink SQL_Kafka管道测试

380

18分17秒

077.尚硅谷_Flink-Table API和Flink SQL_输出到ES

340

8分8秒

078.尚硅谷_Flink-Table API和Flink SQL_输出到MySQL

390

11分33秒

079.尚硅谷_Flink-Table API和Flink SQL_表转换成流

290

7分6秒

080.尚硅谷_Flink-Table API和Flink SQL_流处理和SQL查询的不同

340

12分23秒

081.尚硅谷_Flink-Table API和Flink SQL_动态表和持续查询

430

12分49秒

082.尚硅谷_Flink-Table API和Flink SQL_持续查询示例具体过程

410

20分15秒

083.尚硅谷_Flink-Table API和Flink SQL_时间特性（一）_处理时间

340

14分15秒

084.尚硅谷_Flink-Table API和Flink SQL_时间特性（二）_事件时间

330

13分10秒

085.尚硅谷_Flink-Table API和Flink SQL_窗口（一）_分组窗口

440

18分42秒

086.尚硅谷_Flink-Table API和Flink SQL_窗口（二）_分组窗口测试

400

11分57秒

087.尚硅谷_Flink-Table API和Flink SQL_窗口（三）_Over窗口

380

13分1秒

088.尚硅谷_Flink-Table API和Flink SQL_窗口（四）_Over窗口测试

340

11分3秒

089.尚硅谷_Flink-Table API和Flink SQL_函数（一）_系统内置函数

310

14分38秒

090.尚硅谷_Flink-Table API和Flink SQL_函数（二）_UDF函数_标量函数

430

17分18秒

091.尚硅谷_Flink-Table API和Flink SQL_函数（三）_UDF函数_表函数

350

26分57秒

092.尚硅谷_Flink-Table API和Flink SQL_函数（四）_UDF函数_聚合函数

410

27分55秒

093.尚硅谷_Flink-Table API和Flink SQL_函数（五）_UDF函数_表聚合函数

370

8分11秒

094.尚硅谷_Flink项目-电商用户行为分析_批处理和流处理以及项目选型

350

15分26秒

095.尚硅谷_Flink项目-电商用户行为分析_用户行为分析应用场景

370

9分11秒

096.尚硅谷_Flink项目-电商用户行为分析_模块设计和数据分析

440

21分2秒

097.尚硅谷_Flink项目-电商用户行为分析_模块需求分析_实时热门商品统计（一）

350

9分6秒

098.尚硅谷_Flink项目-电商用户行为分析_模块需求分析_实时热门商品统计（二）

400

10分2秒

099.尚硅谷_Flink项目-电商用户行为分析_模块需求分析_其它需求

400

100

10分20秒

100.尚硅谷_Flink项目-电商用户行为分析_项目框架搭建

380

101

27分53秒

101.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（一）_窗口聚合

360

102

27分13秒

102.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（二）_排序统计输出

390

103

20分50秒

103.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（三）_从Kafka消费数据测试

450

104

10分2秒

104.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（四）_批量消费Kafka数据测试

480

105

28分42秒

105.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（五）_Table API和SQL实现

350

106

26分5秒

106.尚硅谷_Flink项目-电商用户行为分析_实时热门页面流量统计（一）_开窗聚合统计

250

107

9分46秒

107.尚硅谷_Flink项目-电商用户行为分析_实时热门页面流量统计（二）_统计结果排序输出

350

108

21分3秒

108.尚硅谷_Flink项目-电商用户行为分析_实时热门页面流量统计（三）_乱序数据的处理

420

109

21分40秒

109.尚硅谷_Flink项目-电商用户行为分析_实时热门页面流量统计（四）_保证状态更新结果正确

390

110

20分38秒

110.尚硅谷_Flink项目-电商用户行为分析_PV统计（一）_基本实现

420

111

19分21秒

111.尚硅谷_Flink项目-电商用户行为分析_PV统计（二）_数据并行的优化

320

112

15分27秒

112.尚硅谷_Flink项目-电商用户行为分析_UV统计（一）_基本实现

430

113

30分47秒

113.尚硅谷_Flink项目-电商用户行为分析_UV统计（二）_布隆过滤器去重思路和程序架构

350

114

9分11秒

114.尚硅谷_Flink项目-电商用户行为分析_UV统计（三）_布隆过滤器简单实现

340

115

23分31秒

115.尚硅谷_Flink项目-电商用户行为分析_UV统计（四）_UV去重的布隆过滤器实现

300

116

17分2秒

116.尚硅谷_Flink项目-电商用户行为分析_APP市场推广统计（一）_自定义数据源

480

117

20分43秒

117.尚硅谷_Flink项目-电商用户行为分析_APP市场推广统计（二）_开窗聚合统计输出

320

118

19分18秒

118.尚硅谷_Flink项目-电商用户行为分析_广告点击量统计分析（一）_基本需求实现

310

119

14分27秒

119.尚硅谷_Flink项目-电商用户行为分析_广告点击量统计分析（二）_刷单行为过滤思路和整体框架

380

120

23分19秒

120.尚硅谷_Flink项目-电商用户行为分析_广告点击量统计分析（三）_刷单行为过滤代码实现

360

121

18分16秒

121.尚硅谷_Flink项目-电商用户行为分析_恶意登录检测（一）_实现思路和代码框架

400

122

18分20秒

122.尚硅谷_Flink项目-电商用户行为分析_恶意登录检测（二）_具体代码实现

350

123

18分18秒

123.尚硅谷_Flink项目-电商用户行为分析_恶意登录检测（三）_代码改进

350

124

30分32秒

124.尚硅谷_Flink项目-电商用户行为分析_恶意登录检测（四）_CEP代码实现

330

125

12分22秒

125.尚硅谷_Flink项目-电商用户行为分析_CEP简介（一）_CEP介绍及Pattern API整体概念

390

126

12分40秒

126.尚硅谷_Flink项目-电商用户行为分析_CEP简介（二）_个体模式

300

127

10分22秒

127.尚硅谷_Flink项目-电商用户行为分析_CEP简介（三）_模式序列

390

128

9分49秒

128.尚硅谷_Flink项目-电商用户行为分析_CEP简介（四）_模式的检测和事件处理

380

129

19分49秒

129.尚硅谷_Flink项目-电商用户行为分析_订单超时检测（一）_实现思路和程序架构

340

130

17分28秒

130.尚硅谷_Flink项目-电商用户行为分析_订单超时检测（二）_CEP具体代码实现

440

131

6分41秒

131.尚硅谷_Flink项目-电商用户行为分析_订单超时检测（三）_流式输入数据测试

390

132

32分19秒

132.尚硅谷_Flink项目-电商用户行为分析_订单超时检测（四）_ProcessFunction代码实现

380

133

13分48秒

133.尚硅谷_Flink项目-电商用户行为分析_双流实时对账（一）_需求分析和整体架构

350

134

22分23秒

134.尚硅谷_Flink项目-电商用户行为分析_双流实时对账（二）_合流代码实现

380

135

12分55秒

135.尚硅谷_Flink项目-电商用户行为分析_Join API（一）_Window Join

380

136

9分46秒

136.尚硅谷_Flink项目-电商用户行为分析_Join API（二）_Interval Join

240

137

9分21秒

137.尚硅谷_Flink项目-电商用户行为分析_双流实时对账（三）_Join代码实现

330

100.尚硅谷_Flink项目-电商用户行为分析_项目框架搭建

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐