00:00
各位同学大家好,接下来我们看一下我们的hyper log log在实际项目当中的案例和应用。来首先说一下名词,谈谈行话。那么请问你们公司的uvpv dau mau分别是多少?系统上线以后,你一般是如何统计这些数据和汇报?你是如何跟产品经理和运营人员进行协作和沟通的?你们以什么样的标准进行产品的迭代和更新?达到多少你们会取消一个功能?达到多少你们分别会加强一个功能?请你说一下你在上一家公司和产品经理、运营人员是如何合作的?我们这招聘开发除了要懂技术,还要懂相关的运营和产品思维,请你谈谈你的理解,谢谢。各位亲,你真以为你低着头写好代码就行了啊?杨哥,别跟我说那么多废话,我就是个撸代码的,别的我不懂。第二种,杨哥我明白了,混的好的程序员不但要低头干活,更会抬头看路。说的很对,我坐下来能撸代码,站起来能跟产品经理吵架,去PK,去撕逼,这个是新一代程学对应的要求,你必须具备产品思维。那么假设产品经理提了一些需求,你对这些需求很傻逼,你不想做,但是产品经理又说了,这是客户提出来的刚需,你必须得做。那么咱怎么怎么办好产品经理?
01:28
假设这个是要求你上的,到最后我就做了一些什么最经典的后台点击率分析,OK,那么这咱们简单的来说一下,那么这个功能上不上线好不好?产品经理也有产品经理的压力和诉求,开发人员也知道你什么需求都不接,你存在的价值没有了,你什么需求都接,那么程序员就会被搞死。那么接下来就要有个度,有个标准,哪些需求该谈,哪些需求该接,哪些需求该谈,哪些需求该复盘。可问题是这年头一定是有句话叫什么数据说话,开发过去跟产品经理PK或者跟运营商量的时候,那假设你们上了一个叉叉叉功能,现在我作为程序员我开发出来了,已经上线那么三个月了,后台点击率分析后发现。
02:28
使用人数是五个,好,我们费时耗力的,可能花了五天开发出来产品,按照你的需求我们已经全部完成,你也验收通过了,请问一下我们为什么只有五个人用,是运营不给力,还是你做产品分析不到位?你谈一下你的想法,那么接下来我们应该怎么布,怎么做,这个功能是该加强还是砍掉?那么最后是不是用的人多的,我们投入更多的资源?用的人少的,咱们是不是要么保持静默,要么是不是后面优化,对吧,一定是什么资源优先倾斜给能够挣到钱的功能和部门,对吧?这是所有人的这样的一种想法,所以呢,各位同学,那么接下来我们就要唠了这些行话,这是术语,如果你不知道,你去大场面的时候,那对应的这个面试官会觉得你们公司可能就不成体系,你所在的上一家公司至少层次上是比较low的,OK,好,那么同学们不要觉得这些是什么。
03:32
不重要的东西,你在面试的时候有时候对吧,行话术语业内通用的你都清楚,人家才会觉得你专业,有些时候这些东西比纯粹的技术更重要,技术人员一定要记得杨哥这句话,既要低头干活,更要抬头看路,不要觉得干嘛我会加va,我会撸代码就行了,OK,我拿手上拿着把西瓜刀,从西直门扛到东直门,我就是铜锣湾扛把子作用已经不大了。说句不好听点,撸代码的太多了,产品思维加技术能力都具备的程序员更吃香。好,那么弟兄们,那么陈序。
04:07
在开发功能的时候,要想我坐船是为了让客户能够用,那么下面哪些维度我需要统计?第一个UV请看UN k vis独立访客一般理解为客户端IP需要考虑什么去重,比如说现在杨哥同一个人,我今天登录了淘宝十次,那么不好意思啊,按照IP,按照用户编号,杨哥你今天登录了十次,你作为一个独立反客,你UV只能算机。一份,第二个什么叫PV呢?俗称配置无U,也就是页面浏览量,那么一句话,不用去重,那么现在杨哥本人今天登录了淘宝首页十次,UV是一,PV就是十,讲完了应该秒懂。那么下面什么叫dau呢?这个是非常重要的一个指标,在统计上,那么也就是daily active user,所谓的日活,那么也就是日活跃用户量,你开发的这个功能,这个在互联网统计里面是非常非常重要的维度,那么也就是说你登录或者使用了某个产品的用户数,注意。
05:17
避免恶意刷单。去重复登录的用户,常用于反映网站互联网应用或者网络游戏的运营情况啊,对吧,这个今天这个游戏多少人多少玩家登录啊,那么今天爱奇艺网站上,优酷视频APP上面这个广告被多少人点过,那么这个多少人在看这个甄嬛传,多少人在看卡塔尔的世界杯,那么这个日活跃用户量非常重要,那么有日活mau呢?那么自然而然是不是有月活,不用我多说了吧,那么这个时候做一个mege,或者是看一个sum统计聚合加群,求最大的日活量,这一个月给我选出来最活跃的五个用户是谁,我们进行VIP的服务,对吧?有些游戏氪金玩家,那没什么好说的,人家就是天天在线,而且愿意充钱。
06:10
网易游戏曾经为一些VIP用户单独成立一个小组,专门支持土豪玩家他的个人诉求,所以这个dau是非常重要的。那么所以说同学们请了解一下uvpv dau mau这些行话和术语,OK。咱们模拟一个产品经理提出来的真实的需求,来进行一下对应的处理,看一下什么样的需求需要结合我们的微服务,配合我们的red来实现lo log进行落地的统计。很多统计的场景啊,比如说每日注册IP,我们把每一个用户作为一个独立的IP,不重复,每日访问的IP数是多少,那么页面的实时访问数,PV、访问用户数,UV等等,因为主要的目标是高效巨量的,要进行统计和计算,所以对存储数据的内容我们并不太关心,就是说假设啊,这个数据我就是给你一个具体的数,比如说今天的访问,我们。
07:10
网站的用户数是1000还是992个人,那么都不太重要,不用特别的精确,因为你不管是992还是具体是1000,那么这个时候你都可以给老板汇报,约1000人左右,对吧,他不用那么精细的说,非得是像3.1415926这样的啊,小数点后面多少位,所以它主要用于统计什么巨量的数据,哎,小的话你不用,比如说就是一万十万以内,百万以内,那么就是实时统计是多少就是多少,但是如果对于淘宝这样每天上亿的浏览访问量,你是99993647,还是99994768,这样的细节已经不太涉及具体的统计对象的内容和精准性,你只要给我一个大约的数,大差不差就行了,所以我们这统计单日的页面访问量,俗称PB。访问一次就。
08:10
发一次统日统计单日一个页面的用户访问,访问量余V,那么按照用户维度计算,单个用户一天内多次访问,我们也只算什么一次,OK,然后呢,多个key是不是可以进行合并的统计,那某个门户网站所有模块的PV聚合统计,那么就是整个网站的总PV对不对?好,那么大概它的统计需求和思路就是这样,那么接下来我们快速的复习一下我们的hi log log前面的小白篇我们讲过快速复习一下啊,因为这个大家现在呢,上网课啊,学校的要求呢,讲慢一点,讲细点,保证大家呢都能够听得懂,跟得上啊好,来吧,首先我们挨个挨个过。激素啊,是一种数据集,去重后的就叫激素,那么案例case说过了,全集是这么多,4488,拿掉重复以后剩下的多少就是七,那么把这个跟我们的hyper log log对应起来是啥意思啊?你把上面这些数字通通的当成一个一个的IP地址,那么假设。
09:16
四四这个IP不好意思啊,登录了两次啊,但是我们去重以后只算一次啊,所以今天表面上有19个人登陆过,实际而言我们去掉水分的数据,不重复的激素只算七个人登录,还log log就能够做这种去重以后的基数统计,OK,好,那么去重复统计功能的估算就是hy log log。首先来看一下。它呢,只是做基数统计的算法,它只是给你个数字啊,它不是存储数据,它的优点是在输入元素的数量或者是体积非常非常very very big的时候,计算基数所需要的空间总数是固定的,并且很小,因为你要去统计,每天你要去存1亿条记录,谁哪个IP来访问过淘宝,一天就是1亿,一天就是1亿,一个月呢,一年呢?但是请看在里面每个还lo只需要花多少12KB的内存就可以统计接近二的六十四次方个不同元素的是吧基数啊,那么你可想而知啊,这个时候我们呢,是不是对内存的占用大大减少哈,Lolo只会根据输入元素来计算什么啊,极速啊,不会,存储元素本身就是我只存一页,这一个数字就一条,就是告诉你一个数字,我不会存这1亿条记录塞到内存里面,所以哈,Logo不能像集合那样返回输。
10:48
素的各个元素,你不要说,哎,我便利价给我取前100条元素没有哈洛有且仅有一条,就是一个数字统计的去重以后的统计数字,那么基数统计,统计一个集合中不重复的元素什么啊,个数再次强调hyper log log不存一条条具体的记录啊,它没有记录内容,没有记录条数,只存在一个去重后的元素的什么个数就是一个结果,就像一个最终分数一样,那它是对集合驱重虫后剩余元素的计算,那么一句话。
11:21
脱水后的真实数据,来,同学们,那么复习一下我们之前讲过的命令就三个,P p f count PG me OK,那么来,弟兄们来。这三个命令是他官网上的,那么大家请看PF。At PF cant PF me OK,那么所以说呢,这个呢,我们之前也强调过,简单的一句话,如果这有重复的再加进去是加不进去的,OK,好,那么同学们,这个就是我们之前讲过的log log的基本操作命令,好,那么对于我们小白篇,我们快速复习一下。
我来说两句