00:00
好,那接下来呢,我们就来给大家介绍一下这个,呃,咱们的数据买点相关的几个知识点啊,那首先呃,我们先看3.1 3.1呢,呃,咱们这儿的标题叫做目标数据,这个所谓的目标数据指的是什么?目标指的是我们要收集和分析的这个数据目标啊呃,咱们收集跟分析的数据有什么啊?那我们如果说按照这个呃内容去进行分类的话呢,我们大致可以分为这样的五类啊,一类是页面数据。一类是事件数据,一类是曝光数据,还有是启动数据以及错误数据。啊,错误就是报错的信息啊,有这样的五类啊好,那咱们接下来呢,呃,啊把这五类的这个,呃,所谓的数据呢,咱们逐一的解释一下啊来咱们一个一个看啊,先看第一个就是页面数据,或者叫做页面信息,好那接下来我们看一下页面信息,我们收集的是什么内容啊来看一下。页面数据呢,或叫做页面信息,主要记录一个页面的用户访问情况啊,比如说咱们一个电商系统,我的页面会有很多,比如说首页对吧,商品详情页啊,这个加购车页面,或者是支付页面,下单页面对不对,有很多的页面啊,那咱们这个页面数据呢,要记录的就是一个页面的用户访问情况啊,那什么意思?比如说我A用户访问,A访问这个某一个页面了,那OK,你需要把这个记录记录下来,那B用户又访问另一个页面,也要把这个记录记录下来啊好,那接着往下走啊,那这里边大致包括什么样的信息呢?包括咱们这个页面的访问时间,咱得知道是什么时候访问的。
01:44
啊,页面的停留时间,就是我在页面上我停留了多长时间我才跳走啊,那还有一个就是页面的路径啊,页面路径,所谓的页面路径指的是什么?就是呃,咱们因为大家使用一个电商的系统,呃,我们这个使用的这个流程肯定是相对来说比较固定的,比如说呃,咱们要想买东西,我首先可能先访问首页,完了之后呢是详情页,然后呢,加购物车,然后下单,然后支付对不对?哎,这一套流程,这就是所谓的页面访问路径啊,咱们需要给它记录下来啊好,大致呢,就是这么多的这个信息,这是页面信息啊好,那现在咱们打开这个PPT看一下我们页面信息当中,我们所采集的这个呃字段有什么?因为大家上午也看到了啊,我们去看京东那个页面的时候,它的那个日志信息是不是都是结构化的呀,相当于是一个字段一个字段的来看看咱们这个页面信息有哪些字段来把它点开。
02:40
诶,这个变成,诶这个怎么变成图了啊,之前是PPT的啊好,那咱们就直接这么看吧,来直接这么看啊。好,那我们现在呢,先看一下前面这个东西。这个就是一个啥呀,就是一个大家所熟悉的,应该是一个商品的详情页面吧,商品详情页面啊呃,这上边我们会记录哪些信息呢?我们看后边这一大堆啊,首先第一个是页面的ID,页面ID指的是当前页面的ID,咱们是商品详情页,比如说然后呢是上页的ID,上页ID就是你从哪跳转过来的对吧?比如说我是从列表页面跳过来的,因为我可能是搜索手机,然后进到列表,然后再进到详情对吧?哎,然后往下走,页面对象类型和页面对象ID。
03:27
啊,页面对象类型指的是什么?就是你这个页面你所展示的主要内容是什么,你对于商品详情来说,那我展示的主要就是啥呀,那商品呗,对不对,那你展示的是什么商品呢?是哎1001这个商品啊,一个ID啊,那假如说我现在展现的是一个活动的页面对不对,那你这个页面的主要对象就是啥呢?就是活动对不对,那你活动的ID,那你就需要放在这个对象ID这啊就是这个意思啊啊那主要表达这个页面的一些内容啊,然后往下走,下面呢,有一个页面的来源类型啊,来源类型就是说你这个页面啊,你是怎么,就是说你你你是怎么访问他的。
04:08
啊,你看那咱们这儿有什么有比如说搜索结果啊,我是根据我自自己搜索手机,然后呢,我才点击的这个页面,我才调整过来的,或者说也可以通过什么途径来呢?对,可能通过推荐啊,对不对,也可能是我们自己这个电商啊,运营人员的一个推广啊,也可能是一些智能的推荐,对不对,哎,这也都是咱们这个页面的来源啊,其实可以去统计一些什么东西。比如说去统计,去验证一下你那个推荐算法是否高效对吧?啊,你可能我推荐了10万次啊,但是呢,我真正点到这个页面了呢,可能只有这个是1000个,那你说明这个效率就不太好,对不对啊,所以说可以用来验证咱们那些推荐算法是否是这个呃精准的啊好,那接下来往下走,下一个呢,是比如说停留时间,停留时间就比较简单了,指的就是我在这个该页面所停留的时间啊,然后最后一个呢,有一个跳入时间,所谓跳入时间呢,指的是跳入该页面的时间,跳入当前页面的时间啊后边呢,这这个呢是相当于是一个呃,一个时间段对吧,就是多长时间,这个相当于是一个啥呀,是一个时间戳啊时间戳好,那这就是我们页面信息当中啊,大致几乎所有的字段啊,好,那接来往下走啊,那在咱们一个电商系统当中,我们所有的页面都有什么呢?因为咱们这是不是涉及到了一个页面的ID啊,对不对,那咱们所有的页面有什么呢?哎,在下边给大家列出来了啊,有这么多啊。
05:34
比如说呃,首页啊,然后那个呃,分类页发现啊,什么排行,收藏搜索啊,列表详情等等等等啊,然后下边呢,还有什么支付页面啊呃,这个订单页面等等等等非常多啊,那这些东西我们现在呢,先呃大致了解一下就行,后续我们用什么时候的再详细的说什么就行了啊啊这是所有的页面ID,那下边还有什么呢?还有所有的页面对象类型,然后咱们这儿不是有个这玩意儿嘛啊就是这个页面对象对吧?那咱们页面对象有什么呢?往下看。
06:07
哎,我看有这么多啊,比如说有单个的商品,还有这个呃,一组商品啊,还有什么,还有活动ID啊,什么搜索关键字啊,然后这个购物券ID啊,这个几个对象类型分别会出自于什么页面呢?比如说啊,我的商品详情页面,那你说你的页面对象是不是就是单个的商品呀,对不对?商品详页面,你的对象不就是单个商品吗?那比如说那还有什么这个多个商品什么呀,比如说列表页面对不对?那再比如呢,下单页面,或者是加购物车页面,你这个页面是不是都会展示多个商品啊,就是这个意思啊,那活动比如说就是咱们参与某个活动,活动的介绍页面就是单个活动啊,那你要是领优惠券呢,那你的页面对象就是优惠券啊,是假如说你要是一个搜索结果呢,那就是搜索关键字呗的内容,其实就是这样的一些内容啊好,咱们大致了解一下,这个指的是咱们页面对象的类型。
07:02
啊好,那咱们刚才还有一个就是页面的来源对吧?咱们这儿列出来的一个搜索结果,那还可以根据怎么来呢?往下走,咱们有比如说商品的诶推广啊,然后呢,算法推荐商品就是咱们智能推荐啊,那还有什么呢?比如说你的查询结果,还有你的这个促销活动对不对,这都是咱们的呃页面的来源类型,来源类型,那统计这些来源呢,那就是方便我们去看一些咱们这种呃推广的效果啊,看看推广效果如何,你这个算法是否精准对不对,促销活动怎么样对不对,可以去分析一下他们的这个哎东西啊是这样的,好,那这一些就是咱们呃页面信息当中,哎所涉及到的所有的字段啊好,那也就是说我们需要在呃,每个页面上都得去采集这么多的信息才行啊,这是第一个啊,那页面完之后呢,我们看下一个是事件,诶数据或叫做事件信息,来我们看看所谓的事件指的是什么啊。
08:01
来看一下,呃,事件数据呢,主要记录应用内啊,每一个具体的操作行为。操谁的操作行为,肯定是咱们用户的操作行为对吧?那你说咱们用户在这个使用的过程当中会有什么操作呢?当然咱们只是一个电商啊,那最典型的比如说啊领优惠券对不对,加购物车收藏商品对不对,这是不是都是典型的咱们在电商系统里边的行为啊,对不对,那这些行为呢,我们都需要给他记录下来,你做的任何一个动作都要记录下来的。啊啊,那这里边包括了什么呢?包括了我们的操作的类型啊,也就是说你做的到底是什么操作,然后呢,操作的对象啊,操作对象比如说呃,举个例子啊,那比如说我要是领券啊,那你的类型就是领券,那你操作对象就是啥?就是那个券就是优惠券对吧?啊,然后后边操作对象的描述信息等等啊,那接下来我们看一下下边这个小例子啊,这小例子我们来到的是一个什么页面啊。
09:00
这显然是一个领券中心对吧?领券中心那比如说我点这个位置了,你点了一下,点了一下呢,这时候我就会有一个相应的动作日志生成,或叫做事件日志啊,这个动作或者是事件,那首先第一个动作的ID或者类型叫做领券啊,然后你的目标是什么呢?目标是一个券啊,然后目标的ID是谁,也就是说你优惠券ID,因为咱们可能会有很多优惠券,对吧,每个优惠券有一个自己的ID啊,然后动作的时间就是你是什么时候领的这个券。啊,就是这些信息,那当然呢,我们除此之外还有比如说加加购物车。啊,假如现在有一个加购物车,那你说咱们的信息应该是啥?首先动作ID就是加购物车,那你的目标类型是啥?是商品吧?啊动作类型这个动作目标那个ID呢,就是一个商品的ID啊,那动作的时间就是你架购车的时间啊,咱们会记录这些行为啊好,那下边呢,给大家列出来了,我们采集的这个所有的动作类型啊,包括了什么呀,包括了咱们的呃收藏啊,这个取消收藏,加购物车,减购物车啊,增加购物车数量,减购物车数量,什么加售后地址啊,领取优惠券等等等,这都是我们所采集的动作类型。
10:11
啊,当然大家会发现啊,咱们这个动作类型当中,是不是没有跟下单和支付相关的呀,对不对,下单支付这本来应该是咱们电商当中的核心的业务,对吧?啊,但是这里边儿恰好就没有,偏偏就没有这俩业务,这是为什么呢?哎,其实下边呢,给大家列出来了啊,大家看一下,对于下单和支付等业务数据呢,我们是从业务数据库里面去获取,从哪从买搜狗当中获取的啊,为什么呀。因为从my soq当中去获取这些数据啊,那是不是咱们的数据要更可靠一些呀,对不?因为我买soq当中是不可能丢数据的,对吧?那我们这个日志你采集的过程当中,比如说咱们lo啊,可能出问题了,是不是有可能会出现这种数据丢失的现象,对不对?那所以说对于这种就是比较,呃对比较敏感的数据下单支付这个我要求得准确一点,所以说我们这儿呢,直接去买SQL当中去读就可以了啊是这样的啊好,那这些大家搞清楚,好,这就是我们呃在这儿看到的这个动作啊动作这是所有的动作类型,那还有呢,还有这个所谓的动作目标类型啊,动作目标类型就有什么呀,其实主要就是俩,一个就是咱们的,呃,商品就是你加购啊,收藏都是商品,还有领券,你的目标就是优惠券啊,主要有这两个。
11:32
啊,这是咱们采集的事件啊,事件信息,呃,这个事件呢,也可以叫做动作信息啊,事件和动作其实指的是同样的一个东西啊好,那再往下走,下边是曝光,这个曝光大家应该应该能能理解吧,所谓曝光就是呈现在你这个屏幕上边的东西,那是不是就是相当于是曝光了呀,对不对,那咱们去统计一些曝光的时候呢,一般会统计谁的曝光啊。比如说商品的曝光,比如说活动的曝光啊,对不对,我们会去统计他们这些次数啊,当然统计这些曝光,那有什么有什么用啊。
12:06
比如说我统计一个活动,哎,我看一看哎我曝光的,比如说曝光了10万次,对不对,那我真正参与这个活动的订单有多少个,那是不是可以看一看咱们这个活动的效果呀,对不对,那商品曝光对不对,那我商品曝光多少次啊是不是?呃这呃,如果说你是需要你,你是怎么做,你是付费曝光的,因为它可能有什么呀,有一些,呃这个打广告的这种对不对?呃,其实大家有时候搜搜商品的时候,这块右下角是不是可能会出现那种一个广告的标识啊,对不对,那你广告一般都是按这个曝光去付费的,对吧?啊,你曝光哎多少次,我也需要去来进行统计的啊,这个也是很有必要的啊好,那咱们先来看一下,那曝光数据主要记录哪些信息呢?曝光数据主要记录页面所曝光的内容啊,内容包括什么?包括曝光的对象,曝光的类型等,曝光对象和曝光类型好,那咱们看一下这个页面。
13:02
这个页面大家应该比较熟悉,这应该是属于我们呃使用这个电商应用的时候,我们搜索之后的那个商品列表页吧,对吧,搜索然后返回的列表页啊好,那这个页面是不是会曝光大量的商品呀,对吧?那来看一看这个曝光类型有什么啊,曝类有什么来首先第一个这个不是曝光类型,这个曝光字段有什么啊,首先第一个曝光的类型,呃这个曝光类型指的是什么啊?曝光类型呢?咱们比如说我是根据呃搜索而而出现的这个呃商品,这是首先第一个曝光类型就是诶根据搜索结果来的,那还可以什么呀?啊大家想一想啊,你比如说我们再去呃,尤其是在干什么呀,在点击这个商品详情页的时候,商品详情页那你往下滑划划,划到最底下是不是会有好多呃,相似的这个商品啊,对不对,这也属于啥呀,也属于曝光啊,但是这个曝光类型是这种搜索的嘛,它不是它应该属于什么呀,应该属于算法推荐的啊,对不对呀,是这样的啊,当然你在这个活动页面上。
14:03
其实也能看到某些商品,那这也属于诶曝光对吧,也属于曝光,那那就属于什么,比如说促销活动啊,是这样的啊,所以说咱们曝光类型的有挺多的啊,在这儿呢,指的就是搜索结果啊好,那就往下走,下边曝光对象,曝光对象类型和曝光对象的ID,那类型呢,咱们主要就是商品和活动啊,那这边呢,咱们曝光对象就是商品呗啊那类型是什么呢?类型就是呃这个呃,这个曝光对象是什么呢?对象对象就是一个商品的ID啊就这个意思,好,然后最后一个啊,还有一个曝光的顺序。呃,因为在这一个页面上,我是不是会呈现出来多件商品啊,对不对,我需要记住他们的顺序,那肯定是越靠前,是不是效果相对来说应该是越好的呀,所以会记住一个顺序啊,OK,那这是咱们这个曝光的相关信息,好,那现在往下看一下啊。我们所有的曝光类型,包括算法推广啊,商品对广算法推荐,包括查询结果,还有这个促销活动啊,这是曝光的类型啊,然后下边呢,所有曝光的对象,咱们有俩,一个商品一个活动啊,啊,这是我们所收集的曝光数据啊,然后再往下3.1.4米,这是我们记录的启动信息,或叫做启动数据啊,那这个启动数据它指的是什么呢?啊,其实这样的啊,就是我们用户每启动一次。
15:23
每启动一次,那都会生成一条启动日志啊,咱们应用每启动一次都会生成一条启动日志,那启动日当中呢,就记录了你启动的时候的一些信息,那包括什么呢?往下看。哎,大家看这个,这个应该就是咱们某APP启动的时候的一个启动页面吧,当然这应该是啥,应该是有有广告的对吧?嗯,那这些广告其实我们也需要去记录下来啊,那我们来看一下,那右边咱们的启动信息都有什么,那第一个启动入口啊,那启动入口咱们有什么呀?可你可能是在你的呃,手机的这个屏屏幕上自己点图标是不是启动了,那还有一种方式是什么呀?
16:06
你比如说我我他会有推通知对吧,会有推推送啊,比如说有一个电商说哎呀什么今天搞活动,然后你点,然后就启动了,对不对,这也是一种启动方式啊,或者说你还有安装后首次启动啊,安装后启动啊,是这样的啊,那这就是什么东西啊,是咱们所谓的启动入口啊啊那就往下走,那下边呢,有什么启动的加载时间,因为你点完启动到它真正启动之后呢,需要有一个这个时间啊,统计一下咱们这个应用的启动时间,如果发现这个启动时间太太慢对不对,因为你启动慢,用户可能会体验不好,对吧,我可能会相应的去优化一些啊,是这样的啊好,那下边再往下这一堆东西啊,就都是跟这个开屏广告相关的一些信息了,就是启动的时候这个广告,咱们管它叫做开屏广告。啊,那开屏广告,首先第一个开屏广告的这个,呃,ID啊,ID就是你播放的多个广告嘛,有不同的ID,然后第二个呢,是广告播放的时间啊,广告播放时间就是说你这儿呢,呃,一共哎播放了多长时间的广告啊,然后边呢,还有一个叫做用户跳过广告的时间啊,那后边呢,也有一个,诶这个时间啊,这个是什么意思呢。
17:16
什么意思啊,就是是这样的啊,就是实际上咱们去点击这个,呃,去看这个广告的时候呢,呃,你实际上啊,你真正点刚点完这个跳过他,他很很很多情况下是不会就立马就立即就跳过的,对吧?啊不会对他可能会稍微等一下,或者说可能有些不良的商家呢,根本就没跳啊,你点了他也不跳啊,就是必须得放完啊是这,但然后给你一个错觉,哎,我手机是不是卡呀,对吧,可能是那样的啊,真有这么干的啊,真有这么干的,呃,然后所以说咱这有有俩时间啊,就是一个是播放的时间,这个是它真正播放的时间,那这个呢,是你点击跳过的时候的那个时间,因为他俩啊是不同的啊,不同的啊好,那下边最后一个这儿有一个呃启动时间,启动时间指的就是啥啊,就是咱们嗯,启动这个APP的时间呗,啊这个很简单啊,好,这是咱们启动的信息啊,启动信息好,那咱们下边,因为刚才涉及到一个什么东西啊,涉及到了一个呃,什么这个启动的入口对吧。
18:17
那咱们入口有以下几个啊图标啊,然后通知啊,什么安装后这个首次启动啊,是这样的啊好,那接下来我们再看最后一个,诶这个日志的内容,呃,叫做错误数据啊,所以错误数据呢,就是我们用户在使用整个应用的过程当中报错的信息啊,因为大家在使用一些APP啊,或者去访问一些外部页面的时候呢,可能会出现一一些这样的问题啊,比如说我的APP可能会,呃,比如闪退对不对,那我点击一个页面的可能迟迟加载不出来对不对,那这里边呢,可能会有一些故障,这个故障呢,有可能是它APP本身有问题,也有可能是咱们网络延迟,诶导致你这个网不好,所以页面迟迟加载不出来,对吧?啊,那这些都是我们在使用过程当中啊,可能会报的一些信息啊,错误信息,那这些错误信息呢,我们也要收集起来啊,收集起来之后呢,咱们可以去分析看一看是在哪些阶段,用户使用APP,哪些阶段报错报的比较多,对吧?报的多那肯定是那块有问题,咱们可以相应的去进行优。
19:17
粗话啊,所以说错误信息我们也需要收集,那错误信息,那它相对来说呢,就呃内容就比较简单了,那一个就是你报错的编号啊,错误编号啊,这个当然需要提前设计好啊,什么错它的编号是什么,就相当于咱们那个错误错误码对吧?然后后边呢,是报错的具体的信息也需要给他返回出来啊,这就是我们所收集的这个五类的信息,五类信息我们这是按内容进行分类的啊,按内容分类,咱们再来总结一下。一共是哪几种啊,一个页面数据啊,一个是事件,事件指的咱们用户的,其实就是什么,就是操作对吧?啊,然后后边是曝光啊,然后启动后边是错误信息啊,咱们记住这五类啊好,那我把视频录一下。
我来说两句