文章/答案/技术大牛

发布

首页视频114.尚硅谷_Flink项目-电商用户行为分析_UV统计（三）_布隆过滤器简单实现

114.尚硅谷_Flink项目-电商用户行为分析_UV统计（三）_布隆过滤器简单实现

2022-12-022022-12-02 16:02:28播放34

点赞0 收藏 0

尚硅谷大数学科--选学技术丰富/尚硅谷Flink从入门到实战（scala版）/视频/114.尚硅谷_Flink项目-电商用户行为分析_UV统计（三）_布隆过滤器简单实现.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
我们已经知道整体的利用布隆过布隆过滤器进行去重UV去重的一个思路，成整个的程序框架我们也已经搭起来了，我们这里边用到了一个自定义触发器，对吧？每来一条数据，直接把当前的状态清空，触发这里的这个计算操作，那关键就在于我们这里的计算操作怎么去做了，那当然这里边要做这个去重，我们用到了不能过滤器，那么应该自己定义一个，或者从已有的这个，呃，外边的这个库里边去引引入，对吧？啊，那这里边我们自己来定义一个布隆过滤器啊，自定义一个布隆过滤器，其实通过我们前面的介绍，大家会发现当前这个布隆过滤器啊，它主要的我们就叫做bloom吧，呃，因为如果叫bloom filter的话，呃，其实可能会跟本身flink里边啊，已经引入的一些布隆过滤器会有这个名称的冲突啊，我们为了防止它出现这个状况，我们直接就叫bloom，然后这里边呢，诶，可能会有大家想这个一个布。
01:00
通过滤器主要主要的这个要素是什么呢？我们说它本身底层就是一个位图对吧？哎，所以这里边其实关键就在于大家注意啊，主要的这个成分啊，主要就是主要就是一个位图，这是存储空间对吧，和一个，那就是里边的每一位到底怎么样去对应这个规则，就是我们说的哈希函数，所以它里边所谓的不能过滤器，就是这两个东西的一个一个整合，当然可能涉及到一些优化算法，对吧？哈希函数可以有多个，我怎么去选择位图，诶，我到底创建的那个位图大小怎么样去定义，那我们这里边就不做那么复杂的优化了啊，大家只要知道原理，我们就直接把这个位图的大小从外部传入就完事了，对吧？比方说这里边我们定义一个size啊，直接放在这儿长整形传进来，然后一个extend，呃，这个它应该是一个可可这个序列化的一个类型，对吧，S把它定义出来。
02:01
把它定义出来，然后接下来里边其实啊，那首先我们想到它就是一个位图和哈希函数嘛，那这这个位图我是不是要去你有开拓开开辟这么一块这个存储空间呢？定义这个位图呢？诶不能，因为我们这里边如果要你在这儿去定义的话，那就变成又成了我们内存里边去创建它的这个实例了，对吧？那这个位图又占用的是我们的内存了，所以这里边呢，我就只定义当前位图的大小，那具体的位图要放到red里面去，对吧？我我只要这里能控制它的那个大小就可以了啊，所以接下来我这里边就定义一个当前这个private的一个变量啊，定一个这个value啊，我就叫做cap它的容量，那我默认就是把这个外部的这个size传进来啊，那大家可能知道，就就是真实做优化的场景下，我们想要的那个size是什么呢？一般想要的是二的整次幂，对吧？哎，一要你要是二的整次幂的话，我们划分这个字节啊或者。
03:01
呃，做这个提取，做这个内存管理的时候也方便嘛，所以一般情况是要这个二的整次幂的啊，但是这里边我们就不做这个详细的这个算法调整了，对吧？传什么就是什么就完了，呃，然后这里边再做，接下来想要考虑的就是一个哈希函数了啊，哈希函数，那这个哈希函数我们dif抵DeFine一个哈希啊，本来我们这个底层就有这个哈希扣，这里面只是给大家举一个例子啊，看看这个哈希到底应该怎么做，比方说我应该有一个value，这是传进来的对吧？你要对谁做哈希，我们现在对那个user ID做哈希嘛，我这里边把这个定义成string，因为这个不一定是长整形对吧？呃，String string的话，这个涵盖的范围更广一点，然后另外我还可以传一个什么呢？传一个随机数种子来表示我后边要做的一些随机化的处理，对吧，把这个哈希能够打散，然后最后我返回的哈希求出来的是一个长整形的值，然后做一个。
04:02
啊，这样的返回好，先把它当前的这个，呃，就是整体的输入输出先定义好，然后接下来哈，接下来呢，在里边我先定义一个变量，这是我最后要返回的这个result啊，初始时先给一个是零，然后之后做什么操作呢？啊，其实非常简单，就是便利我们当前value里边的每一个字节把它摘出来啊那有同学说摘出来怎么做操作呢？难道是每个当前的每个字符对吧？每个叉去做一个加法吗？加起来就完事了吗？哎，当然不能那么简单，你如果要直接叠加的话，哎，那我们说这个你输入一个ID是ABC和输入一个CBA，那不就一样了吗？对吧？哎，这这就是很容易出现哈希碰撞对吧？所以这里面我们的函数一般这个哈希函数它怎么做呢？一般就是每一位去便利做某一种操作，然后这个做操作的过程当中呢，要结合这个随机数种子给它做一个包装和调整啊这个可能不太好理解，那这里边给大家。
05:02
直接写出来啊，比方说针对每一位啊，哎，这里边我们从零到当前，Until，当前这个value的less，便利我们里边的每一个字节，对吧？啊，把这个先定义出来，然后我们当前的result就做一个调整，基于之前的result，我干个什么事呢？先乘以这个C的随机数种子，然后接下来再加上当前value叉at当前这个艾的这个字符的这个值啊，大家看这个效果就是什么呢？我先做了一个变化调整，然后再加上这个值，得到了一个新的值，下一位就是下一个字符，对吧？在读进来的时候呢，我又在之前的这个基础上再乘一次，然后再加下一个，这就相当于每一位，每一个位置上的这个字符都有了一个不同的权重，对吧？啊，就是你越在靠越靠前的这个字符，这个权重就乘的越多，乘这个C的。
06:02
的这个次次次数就会越多啊，所以这是一个非常简单的一个经典实现啊，啊，那最后我们要返回一个返回啊哈希值对吧，要注意要在我们当前这个size size范围内对吧？哎，那有同学说这个怎么去做这个判断呢？哎，你可以做去去做这个取鱼的操作对吧？这是一个常见的，那另外还有一个我们说要要呃映射到映射到size范围内，或者说cap范围内容量对吧？我们这里面不用这个取鱼的方法，给大家用另外一种方式，什么方式呢？我直接用这个cap减一，这里大家要注意一下啊，我这里边哎，默认cap应该是二的整次幂对吧。整次幂，哎，所以什么叫二的整次幂呢？哎，就是那那不就是二的几次方嘛，对吧，写成二进制，它比较有特点，写成二进制就是我们最终在这个呃，内存空间里边存储的方式嘛，它如果是二的整次幂的话，那是不是就永远都是前面一个一，后边很多个零这样的状态啊，对吧？那大家知道如果要是一的话，这是二的零次幂，二就是一，零后面一个零二的一次幂，对吧？啊，那两后面两个零，二的二次就是4100就是四，那10002的三次幂就是八，哎，所以二的整次幂都有这个特点，一个一后面很多个零，那这里我如果减一的话，是不是就相当于全是一啊，对吧，后面的数就全是一了，然后我干个什么事情呢？做一个谓语操作，跟我当前的这个result做一个谓语操作，哎，那大。
07:57
他想我最后得到这个比方说啊，我当前这个cap，我要求二的四次幂，大家知道它肯定就是一后边四个零对吧？你如果写成一个字节的形式的话，就是0001000016嘛，写成这个，那那如果说这个容量只有这么大的话，我减一之后是不是就是00001111啊15对吧，后四位都是幺，前面都是零，然后你跟这个result做谓语，那是什么了之后与一个零是不是前面的都是零啊，与一个一后四位是不是相当于就都是自己本身的那个数对吧？本身你是零就是零，是幺就是幺，所以相当于我是对这个result做了一个截取对吧，就是截取它后面的几位，在我们当前范围内的几位。
08:48
啊啊，就是这这就是避免了什么呢？就避免了你做那个取鱼的时候，有时候很容易就出现一个一个就是相当于不同的数，取了余之后得到的那个结果一样，对吧？啊，你直接截取的话，其实行为也是类似的，这是一种不同的实践方式，做了一个谓语运算。
09:08
这是这个布隆过滤器的定义啊。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷Flink从入门到实战（scala版）

（114/137）

10分49秒

001.尚硅谷_Flink-Flink简介

510

19分45秒

002.尚硅谷_Flink-Flink应用场景

480

11分3秒

003.尚硅谷_Flink-流式处理的提出

380

15分16秒

004.尚硅谷_Flink-流式处理的演变

350

16分33秒

005.尚硅谷_Flink-Flink的特点

340

23分57秒

006.尚硅谷_Flink-批处理wordcount

520

20分13秒

007.尚硅谷_Flink-流处理wordcount

380

19分14秒

008.尚硅谷_Flink-流处理wordcount扩展测试和说明

410

26分46秒

009.尚硅谷_Flink-Flink集群部署

470

22分34秒

010.尚硅谷_Flink-提交Job

400

7分30秒

011.尚硅谷_Flink-命令行提交Job

350

12分50秒

012.尚硅谷_Flink-其它方式集群部署

360

8分35秒

013.尚硅谷_Flink-运行时架构_运行时组件

390

13分22秒

014.尚硅谷_Flink-运行时架构_作业提交流程

430

16分27秒

015.尚硅谷_Flink-运行时架构_任务调度原理（一）_并行度和slot

360

17分22秒

016.尚硅谷_Flink-运行时架构_任务调度原理（二）_slot共享

470

6分15秒

017.尚硅谷_Flink-运行时架构_任务调度原理（三）_slot共享示例

300

25分35秒

018.尚硅谷_Flink-运行时架构_任务调度原理（四）_执行图和任务链

310

12分20秒

019.尚硅谷_Flink-运行时架构_任务调度原理（五）_自定义任务调度规则

350

16分18秒

020.尚硅谷_Flink-流处理API_Source（一）_从集合和文件读取数据

380

21分32秒

021.尚硅谷_Flink-流处理API_Source（二）_从Kafka读取数据

430

24分49秒

022.尚硅谷_Flink-流处理API_Source（三）_自定义Source

410

6分49秒

023.尚硅谷_Flink-流处理API_Transform（一）_简单转换算子

320

19分15秒

024.尚硅谷_Flink-流处理API_Transform（二）_简单分组聚合

380

11分20秒

025.尚硅谷_Flink-流处理API_Transform（三）_reduce聚合

320

12分23秒

026.尚硅谷_Flink-流处理API_Transform（四）_分流操作

350

19分54秒

027.尚硅谷_Flink-流处理API_Transform（五）_合流操作

290

9分39秒

028.尚硅谷_Flink-流处理API_Flink支持的数据类型

420

19分40秒

029.尚硅谷_Flink-流处理API_函数类和富函数类

280

18分54秒

030.尚硅谷_Flink-流处理API_Sink（一）_文件

410

10分44秒

031.尚硅谷_Flink-流处理API_Sink（二）_Kafka

430

18分29秒

032.尚硅谷_Flink-流处理API_Sink（三）_Redis

360

16分42秒

033.尚硅谷_Flink-流处理API_Sink（四）_ElasticSearch

350

17分47秒

034.尚硅谷_Flink-流处理API_Sink（五）_MySQL

480

7分21秒

035.尚硅谷_Flink-流处理API_Window API_窗口概念

360

10分12秒

036.尚硅谷_Flink-流处理API_Window API_窗口类型

330

27分16秒

037.尚硅谷_Flink-流处理API_Window API_窗口分配器

450

20分59秒

038.尚硅谷_Flink-流处理API_Window API_窗口函数及其它可选API

410

15分5秒

039.尚硅谷_Flink-流处理API_Window API_窗口计算测试

270

17分56秒

040.尚硅谷_Flink-时间语义

300

4分32秒

041.尚硅谷_Flink-时间语义的设置

350

19分5秒

042.尚硅谷_Flink-Watermark概念

370

15分56秒

043.尚硅谷_Flink-Watermark原理和特点

320

8分7秒

044.尚硅谷_Flink-Watermark传递

260

16分32秒

045.尚硅谷_Flink-Watermark代码中引入

290

7分8秒

046.尚硅谷_Flink-自定义Watermark生成机制

290

16分10秒

047.尚硅谷_Flink-事件时间语义下的窗口测试

360

9分20秒

048.尚硅谷_Flink-窗口起始点的确定

360

8分7秒

049.尚硅谷_Flink-状态管理（一）_状态的概念

400

15分13秒

050.尚硅谷_Flink-状态管理（二）_算子状态和键控状态

290

27分24秒

051.尚硅谷_Flink-状态管理（三）_状态在代码中的定义和使用

340

17分14秒

052.尚硅谷_Flink-状态编程示例（一）

380

17分29秒

053.尚硅谷_Flink-状态编程示例（二）

410

23分23秒

054.尚硅谷_Flink-ProcessFuntion_基本概念和使用

360

32分49秒

055.尚硅谷_Flink-ProcessFuntion_定时器应用示例

320

9分44秒

056.尚硅谷_Flink-ProcessFuntion_侧输出流应用示例

360

15分35秒

057.尚硅谷_Flink-状态后端

390

13分30秒

058.尚硅谷_Flink-容错机制_检查点概念和原理

280

25分45秒

059.尚硅谷_Flink-容错机制_检查点算法

380

26分28秒

060.尚硅谷_Flink-容错机制_checkpoint配置

350

8分20秒

061.尚硅谷_Flink-容错机制_重启策略配置

440

7分31秒

062.尚硅谷_Flink-保存点

460

10分45秒

063.尚硅谷_Flink-状态一致性_基本概念

400

8分42秒

064.尚硅谷_Flink-状态一致性_Flink端到端状态一致性的保证

390

23分34秒

065.尚硅谷_Flink-状态一致性_幂等写入和事务写入

410

18分19秒

066.尚硅谷_Flink-状态一致性_Flink与Kafka连接的状态一致性

400

22分2秒

067.尚硅谷_Flink-Table API和Flink SQL_基本概念和示例程序

400

9分21秒

068.尚硅谷_Flink-Table API和Flink SQL_基本程序结构

340

15分42秒

069.尚硅谷_Flink-Table API和Flink SQL_表执行环境

360

19分13秒

070.尚硅谷_Flink-Table API和Flink SQL_表的概念和从文件读取数据

410

9分28秒

071.尚硅谷_Flink-Table API和Flink SQL_从Kafka读取数据

340

11分3秒

072.尚硅谷_Flink-Table API和Flink SQL_表的查询转换

390

8分24秒

073.尚硅谷_Flink-Table API和Flink SQL_DataStream和表的转换

400

25分13秒

074.尚硅谷_Flink-Table API和Flink SQL_输出到文件

320

10分50秒

075.尚硅谷_Flink-Table API和Flink SQL_更新模式

310

17分40秒

076.尚硅谷_Flink-Table API和Flink SQL_Kafka管道测试

380

18分17秒

077.尚硅谷_Flink-Table API和Flink SQL_输出到ES

340

8分8秒

078.尚硅谷_Flink-Table API和Flink SQL_输出到MySQL

390

11分33秒

079.尚硅谷_Flink-Table API和Flink SQL_表转换成流

290

7分6秒

080.尚硅谷_Flink-Table API和Flink SQL_流处理和SQL查询的不同

340

12分23秒

081.尚硅谷_Flink-Table API和Flink SQL_动态表和持续查询

430

12分49秒

082.尚硅谷_Flink-Table API和Flink SQL_持续查询示例具体过程

410

20分15秒

083.尚硅谷_Flink-Table API和Flink SQL_时间特性（一）_处理时间

340

14分15秒

084.尚硅谷_Flink-Table API和Flink SQL_时间特性（二）_事件时间

330

13分10秒

085.尚硅谷_Flink-Table API和Flink SQL_窗口（一）_分组窗口

440

18分42秒

086.尚硅谷_Flink-Table API和Flink SQL_窗口（二）_分组窗口测试

400

11分57秒

087.尚硅谷_Flink-Table API和Flink SQL_窗口（三）_Over窗口

380

13分1秒

088.尚硅谷_Flink-Table API和Flink SQL_窗口（四）_Over窗口测试

340

11分3秒

089.尚硅谷_Flink-Table API和Flink SQL_函数（一）_系统内置函数

310

14分38秒

090.尚硅谷_Flink-Table API和Flink SQL_函数（二）_UDF函数_标量函数

430

17分18秒

091.尚硅谷_Flink-Table API和Flink SQL_函数（三）_UDF函数_表函数

350

26分57秒

092.尚硅谷_Flink-Table API和Flink SQL_函数（四）_UDF函数_聚合函数

410

27分55秒

093.尚硅谷_Flink-Table API和Flink SQL_函数（五）_UDF函数_表聚合函数

370

8分11秒

094.尚硅谷_Flink项目-电商用户行为分析_批处理和流处理以及项目选型

350

15分26秒

095.尚硅谷_Flink项目-电商用户行为分析_用户行为分析应用场景

370

9分11秒

096.尚硅谷_Flink项目-电商用户行为分析_模块设计和数据分析

440

21分2秒

097.尚硅谷_Flink项目-电商用户行为分析_模块需求分析_实时热门商品统计（一）

350

9分6秒

098.尚硅谷_Flink项目-电商用户行为分析_模块需求分析_实时热门商品统计（二）

400

10分2秒

099.尚硅谷_Flink项目-电商用户行为分析_模块需求分析_其它需求

400

100

10分20秒

100.尚硅谷_Flink项目-电商用户行为分析_项目框架搭建

380

101

27分53秒

101.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（一）_窗口聚合

360

102

27分13秒

102.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（二）_排序统计输出

390

103

20分50秒

103.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（三）_从Kafka消费数据测试

450

104

10分2秒

104.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（四）_批量消费Kafka数据测试

480

105

28分42秒

105.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（五）_Table API和SQL实现

350

106

26分5秒

106.尚硅谷_Flink项目-电商用户行为分析_实时热门页面流量统计（一）_开窗聚合统计

250

107

9分46秒

107.尚硅谷_Flink项目-电商用户行为分析_实时热门页面流量统计（二）_统计结果排序输出

350

108

21分3秒

108.尚硅谷_Flink项目-电商用户行为分析_实时热门页面流量统计（三）_乱序数据的处理

420

109

21分40秒

109.尚硅谷_Flink项目-电商用户行为分析_实时热门页面流量统计（四）_保证状态更新结果正确

390

110

20分38秒

110.尚硅谷_Flink项目-电商用户行为分析_PV统计（一）_基本实现

430

111

19分21秒

111.尚硅谷_Flink项目-电商用户行为分析_PV统计（二）_数据并行的优化

320

112

15分27秒

112.尚硅谷_Flink项目-电商用户行为分析_UV统计（一）_基本实现

430

113

30分47秒

113.尚硅谷_Flink项目-电商用户行为分析_UV统计（二）_布隆过滤器去重思路和程序架构

350

114

9分11秒

114.尚硅谷_Flink项目-电商用户行为分析_UV统计（三）_布隆过滤器简单实现

340

115

23分31秒

115.尚硅谷_Flink项目-电商用户行为分析_UV统计（四）_UV去重的布隆过滤器实现

300

116

17分2秒

116.尚硅谷_Flink项目-电商用户行为分析_APP市场推广统计（一）_自定义数据源

480

117

20分43秒

117.尚硅谷_Flink项目-电商用户行为分析_APP市场推广统计（二）_开窗聚合统计输出

320

118

19分18秒

118.尚硅谷_Flink项目-电商用户行为分析_广告点击量统计分析（一）_基本需求实现

310

119

14分27秒

119.尚硅谷_Flink项目-电商用户行为分析_广告点击量统计分析（二）_刷单行为过滤思路和整体框架

380

120

23分19秒

120.尚硅谷_Flink项目-电商用户行为分析_广告点击量统计分析（三）_刷单行为过滤代码实现

360

121

18分16秒

121.尚硅谷_Flink项目-电商用户行为分析_恶意登录检测（一）_实现思路和代码框架

400

122

18分20秒

122.尚硅谷_Flink项目-电商用户行为分析_恶意登录检测（二）_具体代码实现

350

123

18分18秒

123.尚硅谷_Flink项目-电商用户行为分析_恶意登录检测（三）_代码改进

350

124

30分32秒

124.尚硅谷_Flink项目-电商用户行为分析_恶意登录检测（四）_CEP代码实现

330

125

12分22秒

125.尚硅谷_Flink项目-电商用户行为分析_CEP简介（一）_CEP介绍及Pattern API整体概念

390

126

12分40秒

126.尚硅谷_Flink项目-电商用户行为分析_CEP简介（二）_个体模式

300

127

10分22秒

127.尚硅谷_Flink项目-电商用户行为分析_CEP简介（三）_模式序列

390

128

9分49秒

128.尚硅谷_Flink项目-电商用户行为分析_CEP简介（四）_模式的检测和事件处理

380

129

19分49秒

129.尚硅谷_Flink项目-电商用户行为分析_订单超时检测（一）_实现思路和程序架构

340

130

17分28秒

130.尚硅谷_Flink项目-电商用户行为分析_订单超时检测（二）_CEP具体代码实现

440

131

6分41秒

131.尚硅谷_Flink项目-电商用户行为分析_订单超时检测（三）_流式输入数据测试

390

132

32分19秒

132.尚硅谷_Flink项目-电商用户行为分析_订单超时检测（四）_ProcessFunction代码实现

380

133

13分48秒

133.尚硅谷_Flink项目-电商用户行为分析_双流实时对账（一）_需求分析和整体架构

350

134

22分23秒

134.尚硅谷_Flink项目-电商用户行为分析_双流实时对账（二）_合流代码实现

380

135

12分55秒

135.尚硅谷_Flink项目-电商用户行为分析_Join API（一）_Window Join

380

136

9分46秒

136.尚硅谷_Flink项目-电商用户行为分析_Join API（二）_Interval Join

240

137

9分21秒

137.尚硅谷_Flink项目-电商用户行为分析_双流实时对账（三）_Join代码实现

330

114.尚硅谷_Flink项目-电商用户行为分析_UV统计（三）_布隆过滤器简单实现

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐