温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
好,同学们大家好,接下来我为大家介绍第六章布隆过滤器来。梳理一下我们日常学习新技术的思路。这个名词拽出来了,那么请问它是什么?他为什么会出现?他能干什么?解决了我们哪些痛点,我为什么要学习?另外杨哥你还欠这个技术债啊,这个Mo bit map结合我们Java微服务的使用还没给我们讲哦,那么接下来合二为一,加深一点难度,那么下面着重给大家介绍一下我们这个新知识点,也是目前比较问的比较多的啊,普通过滤器你有没用过?好老规矩,各位亲,我们先来看一下大厂的真实需求和面试题的反馈。第一个。下面呢,某种集合里面啊,反正有一个数据源,它里面有50几个电话号码,现在呢,有10万个电话号码,要求你快速准确的判断这些号码是否在这个大数据集里面。
01:09
同学们思考一下,对于这样在巨量海量数据下面的一个全集数据包里面,你如何判断某些数据有某些数据是否存在?好,那么我先暂停一下录屏,各位亲可以先思考一下,那么同学们感谢大家的回复。那接下来我们搂。我让你判断是在50亿的记录当中,有没有存在我所需要的那些敏感信息,或者我需要你判断是否存在的重要数据,我不是现在让你存进去,50亿条记录已经有人帮你存好了,比如说大数据的那些日志分析啊,收集的已经搞定,下面我要求你在我的全量级当中,这样的海量的数据里面,如果有就请返回,一没有就返回零好。通过数据库。50亿个数据里面从MYCQ里面查出来,我觉得就不要讨论了,OK,第二个那存里面干,那么假设很简单,杨哥我现在里面存他50亿条记录,那500亿行不行,反正我。
02:14
无限扩容无限集群用do对吧,那么下面好50G。八个字节40个G。那么你思考一下,你现在内存,你自己笔记本上40个G,这还也许只是什么某一个月的数据,如果这样含量的上来了,你这个内存估计也是兔子的尾巴长不了。好,接下来直接问你,我们要判断质量数据,海量数据,下面某些重点敏感数据是否存在,请问波轮过滤器你们在公司有没有配过,有没有了解过?再来安全的连接外网址,全球数十亿的网址,判断哪些是黑名单,哪些是白名单。再来黑名单校验,请你识别出垃圾邮件地址,哎,假设现在发件人给了我一个ABC艾abc.com,那么这个要需要在我们的一个黑名单库里面,只要一发过来,一检索在我的黑名单库里面有,对不起,不让你继续后面访问,不让你发送,立刻打回去,且告知这是一个垃圾邮件。
03:22
再来白名单,用户既然有黑就会有白,那么也一样,也需要有一个白名单底单库,好,只要是在这个白名单里面的,我才认为识别出存在的是合法用户,可以进行后续的处理。那么来吧,同学们,一句话,它解决的问题。再给你海量数据集里面有没有有返回一个一,没有返回一个零,哎,有点类似于我们之前讲的bit map签到,今天你来签到了,京东APP上来了,发一颗金到没有来,默认值就是个零,那么如何变通的变相的在海量数据集里面来判断是否存在,是否有没有,那么这个就是我们不能过滤器,它解决的痛点和结合我们bit map将会打出的一些新功能。
我来说两句