00:00
好,接下来呢,我们来看一下第三章数据生成模块,那在这一章当中啊,哎,我们要造一部分自己的数据。其实啊,我们这里面不照也可以啊,因为我们呢,本身有自己的Java后台,而且还有对应的这个前端页面啊,可以产生前端的买点数据,以及Java后台的这个业务数据都可以都有。这两部。而且呢,我们这个项目呢,是跟Java前端整个啊三个学科啊一起做的一个联合项目,所有数据全部是贯穿打通的,所有的日志格式都是一样的。那为什么这里面还要照呢?啊,其实啊,就是因为我们如果是按照这个前端或者这个Java里面,哎,产生的数据,我们点一条产生一条数据,点一条产生一条数据,这个太慢了。对于我们大数据成员来说啊,我们这边需要的是更多的这个数据量,哎,所以说这里面呢,哎,我们要自己写一个代码来模拟生成对应的日志数据,以及业务数据都可以。啊,如果说同学说,那海哥我就想自己去点啊,那没关系,你可以去啊看一下呃,咱们这个官方网站上会发布对应的Java项目和前端项目,里面就会教大家如何来产生对应的这个数据。
01:10
诶跟我们这个项目呢,如果你把三套项目部署到一起之后,那其实就能完成一个公司当中,Java后台前端以及整个大数据系统啊,完全的一个闭环的一个项目啊,全部免费呢,都会给到大家啊,这也不用担心,这里面呢,只是我为了哎学习期间诶更容易方便产生更多的数据,所以说呢,我这里面哎这里造一部分数据啊,稍微给大家解释一下,那下面我们来看一下哎,我们这个数据啊,目标数据长什么样。对吧,啊分几大类,那这里面呢。我们要收集和分析的数据,包括页面数据。事件数据,曝光数据,还有对应的启动和错误数据,这呢是主要针对的是针对页面上的前端买点,用户行为数据。业务数据我们会在下一个文档当中会给大家去讲解,OK吧,那这里面首先来看第一个叫页面数据,什么叫页面数据啊。
02:05
那你看一下下面这个。这就是一个手机,手机APP的一个页面。对吧,哎,那在这里面,哎,我们看到的一些静态数据,对吧,展示的。哎,让你直观看到的内容,那这就是页面,那好,那还有对应的叫事件数据,那什么叫事件数据呢。哎,这里面你再换个名词叫动作数据就行。动作,比如说在这个页面上我进行了哪些相关的操作?比如说我点击。对吧,哎,然后呢,我这个滑动哎等等这些都属于动作型面的事件数据,OK吧,那还有个叫曝光数据,什么叫曝光啊。哎,其实就被用户看到了,那只要被用户看到了,那他就是被曝光的数据。那这个手机怎么知道看没看到呢?只要在他手机页面上展示出来了,那就是曝光。OK吧,好,那下面还有一个叫启动数据。
03:03
很很好理解哈,就是你手机诶,第一次启动的时候,启动这个APP1打开,那这就是对应的启动日志。那还有错日志,那就说你运行这个APP的过程当中,诶发生了一些异常故障,那产生的数据呢,就是错数据。啊,那下面呢,我们分门别类一个一个呢给大家详细介绍一下,那这个呢是页面。那针对这个页面,我要在这个页面上记录哪些信息呢?大家思考一下,如果你是一个前端程序员,我在要在这个页面上买点哪些信息呢?思考一下。那好,那这里面呢,我们是按照你看诶这么如下几类啊进行一个啊买点展示的,那第一个呢,就是页面ID,首先你要告诉这个未来分析的人员,我这是哪一个页面啊。那你看这没商品详情页,那其实除了它之外还有哪些页,有首页、分类页、发现页,热门页等等,如下这些都是不同的页面。
04:06
那好,那这块你要标记我是哪一个页面。那接下来还要看说上一个页面ID是谁。比如说我这个跳转到这个页面,我是从哪一个页面过来的。这个很有用啊,哎,其实呢,这里面涉及到了我是从不同的这个渠道来的,有可能我从广告来的,对吧,我从36个星来的,我从今日头条来的,我从百度来的,都有可能直接跳转到电影这个页面。对吧,那我要分析它的渠道的一个来源,所以说要涉及到一个上一个页面的ID是谁。那接下来页面的对象类型,那我们这个呢,是一个商品对吧?哎,属于商品的一个分类,好页面对象的一个ID,那你看这里面是用中文描述的这个商品详情页,那这个商品详情页它有对应的这个ID号,比如说唯一标识。哎,这个三品ID它是唯一标识,哎,避免这个中文的一个歧义,好啊,用它来唯标识提交你身份证号对吧,你的用户名,比如说这个叫大海哥对吧?啊,这是你的名称,那下面这个ID呢,是210啊,什么什么身份证号啊。
05:12
一个道理啊。那好,那下面呢,是这个页面的一个来源类型。那页面来源类型从哪来的?你是搜索来的,是广告推荐过来的,还是等等其他渠道过来的啊,还是要分析对应的渠道。那另一个呢,是在这个页面当中,用户停留了多长时间。那你看一般比如说啊,这里面这是手机,那我可能稍微停车时间要长一点啊,那你像那个,如果这个是一个黑人参丸页面的话,那我很快就会划走。那宋宋老师就不一样了,那如果是手机的话呢,他可能就一下划过了,但反过来如果是骸骨人娠丸,他在这页面上可能停留个啊30分钟都有可能啊,会详细的研究这里面的参数。那就说明是什么,哎,说明他感兴趣,那后续啊,再给他做推荐的时候,就可以给他推荐大量的这个海狗人生丸了。
06:00
对吧,哎是这一块啊好,那接下来是跳入时间,就什么时候来,什么时间进来的啊,以及呢,什么时间出去的啊,这个方便呢,记录这个停留时间啊好,这就是针对这个页面页,我要记录的一些信息,方便我后续的一个统计分析在这个页面当中发生了哪些事情。这上面都有啊,啊下面有。
我来说两句