专栏首页GA小站1.6、需要注意的几个问题

1.6、需要注意的几个问题

1.6.1数据准确度的问题

一些用户会顾忌数据的准确度,根据作者的总结,数据传递的准确度主要受到下面几个因素的影响。

1.用户网络环境问题

用户的网络环境很糟糕的时候,可能会导致丢包,但现在统一版的跟踪代码对回传数据有重发机制,所以造成的影响较小。

2.网络服务运营商的带宽问题

部分网络服务运营商的带宽不够高,可能会导致数据回传缺失。例如,针对我的网站使用的境外的云服务,使用某家运营商的网络执行ping命令,没有丢包情况发生,如图1-71所示。

图1-71 Ping没有丢包

可是,使用另一家运营商提供的宽带服务时,却发生了丢包现象,如图1-72所示。

图1-72 Ping对包

相比其他一些工具,造成数据差异的主要原因是:虽然GA收集数据的服务器现在是在国内,但节点往往都是在某一家网络服务运营商,并没有做到其他运营商都有节点,因此,其他运营商用户收集数据的丢失可能性比较大。

3.浏览器不支持js,未开放API

利用页面标签技术做跟踪的方案都会需要浏览器支持js和开放API,这样跟踪代码才能获取一些数据信息,如浏览器的Referral,页面的各种加载时间,如果这两个都不支持,那么就造成数据的缺失。

4.使用较低版本的Firefox

这个是历史原因造成的,旧版本的Firefox跟进行业技术标准比较慢导致的。

通常来说,一些地区使用确实会有一定的丢包情况,但有些因素是一些地区的工具也具备的因素,应该说是采用JavaScript这种跟踪方式的不足。从整体上来说,这些地区的误差若能在个位数的百分比之内,还是可以放心使用这个工具的。

1.6.2网站的打开速度

GA跟踪代码是异步加载,已经对网站打开速度的影响有限,但还是会存在部分用户加载很慢,严重影响到网站访问,这种情况通常会使两种原因:一种原因是使用小型运营提供的宽带导致的,另一种原因是部分地区的运营商不能有效连接GA的服务器。

1.6.3数据抽样

在GA官方的文档中:抽样是从整体抽取一部分数据集用于分析整体的情况,但大部分用户都不知道什么情况下会导致抽样,这个是让很多人比较头疼的问题,下面我来介绍一下比较常见的几种抽样情况:

1.次级维度的使用

添加次级维度的时候有可能会导致抽样,这个是没加次级维度的,没有抽样,如图1-73所示。

图1-73 添加次级维度未抽样

加了次级维度后,抽样了,如图1-74所示。

图1-74 添加次级维度后抽样

可以看到添加次级维度过后就变成了抽样,这个不是取决于数据的记录行数,在图二中实际只有不到800条数据,但还是抽样了,我在另一个视图里面超过了13万,还没有抽样。

所以,次级维度可能会导致抽样。

2.临时查询

当用户是临时查询的时候,不能满足现有的未抽样数和预聚合数据的时候就会抽样。怎么理解呢?其实就是,如果您用自定义报告的时候,如果维度和指标结构不是标准报告的横向拓展的时候,就可能会是抽样的了,因为标准报告的结构已经是预聚合数据,就是已经计算好的了,如果您设计一个自定义报告,不属于预聚合的数据里面的,那就要重新计算,就要抽样。

下面来看看例子,如图1-75所示。

图1-75 临时查询未抽样

用日期作为维度,看看指标会话数和用户数的自定义报告,很明显,这标准报告结构,所以数据没有抽样的。

如果用User ID作为维度,看会话数和用户数的自定义报告,可以知道User ID是一个自定义维度,那就一定不会再预聚合报告里面,所以很大可能是抽样的,下面我们来看看实际情况,如图1-76所示。

图1-76 临时查询抽样

可以看到这个报告是抽样,下面来探讨一下,怎样判断数据是预聚合数据?

(1)是按照标准报告的数据结构做拓展,比如对于渠道报告,是根据渠道分组的,显示数来的指标是只有几个,但实际上,您拓展一些其他指标,大部分也是不会抽样的,因为GA内部预聚合的数据表是比您实际看到的要多的。

(2)根据经验来判断。

3.单天表与多天表限额

(1)单天处理表

单天处理表包含一天的所有数据,这些表是逐天处理,也被称为单天表,GA标准版一天能处理5W行的唯一数据,GA360能处理最高7.5W行。当用户查询的记录超过上述数限额,GA就会将降低的维度归并到Others。GA仍然跟踪哪些被归并到Others的维度,并逐天处理,有些维度在今天可能被归并到Others,但第二天却没有归并到Others。由此,得到的报告并不是真实的数据,这个报告实际上并不是抽样导致的,但这里归类到抽样理解更方便一些。

(2)多天处理表

多天处理表包含多天的所有数据,这些表时处理多天数据,有多个单天表组成。

GA标准版一张多天表最多能处理10万行的唯一数据,GA360最高是15万,当用户查询的记录超过上述数据的限额,GA就会将降低的维度归并到Others。

简单的理解就是数据的处理记录限额,超过一定限额的数据就不做详细计算,归类到others。

(3)报告查询限制

对于任何时间区免费版GA最多可以处理100万行记录,付费版是300万。当用户查询的记录超过上述数据的限额,GA就会将降低的维度归并到Others。

当用户查询的数据超过单天表或多天表的限额的时候就会抽样,但这个抽样很不好把握,因为这个是GA背后的计算规则,这类限额通常会有个Others的出现,如果您看到某个维度有others,就有可能是超过了限额了。或是您看到维度有个others的话,这个报告就不是真实的结果。

当让也有例外的,因为others在一些报告的作用的话是存储非系统预设定的数据的,比如说渠道报告里面。

4.会话的限制

GA里面的抽样对会话有个限制,但是只是针对临时报告,如果媒体资源在指定日期范围内获得的会话次数超过 50 万(对于GA360,此数字为 1 亿)GA将采用抽样算法,所用样本集与选定日期范围内每天的会话次数分布成比例。因此,每个查询的会话抽样率都不相同,具体取决于指定的媒体资源在所选日期范围内获得的会话次数。

简单的理解就是临时性报告的会话最多是50万,超过了就会抽样,关于什么临时报告,请参考临时查询那一节的内容。

也就是临时查询之前是可能会抽样,如果加多一个条件,超过50万的会话就是一定会抽样。

5.高级细分

高级细分可能导致抽样,下面先看一下具体例子:在标准报告,没有抽样,如图1-77所示。

图1-77 高级细分未抽样

在添加一个细分,将female的筛选出来的时候,就变成了抽样了,如图1-78所示。

图1-78 高级细分抽样

原因是高级细分里面有很多划分维度,如果划分维度不是预聚合表中的数据就会变成抽样,如果是就不抽样,所以高级细分并不总是会导致抽样的,只是可能。

6.查看多通道漏斗报告超过100万会话

当然还有其他几个条件导致抽样,比较不常用,也比较复杂,这里就不介绍,如果有兴趣的,可以查看站点的文章——详解抽样。

整体上来说,抽样的原因是有很多,除了上面提到的几种比较常见的情形外,还有其他一些情况下也会抽样,判断的就是看左上角的抽样图标是否变亮,如果变亮就抽样。

7.如何解决

既然知道了什么情况下会抽样和抽样的原因,那么我们就需要一些措施来应对,通常来说,主要有这几个方法。

  • 缩短时间区间。
  • 不适用过滤视图。
  • 不适用高级细分或二级维度。
  • 不用自定义报告。
  • 下载原始数据再计算。
  • 使用GA360
  • 使用Matomo等开源工具。

1.6.4数据延时

GA的数据的呈现速度取决于Hits的数量,如果您的数量比较少,越快出完数据,如果您的Hits很多,可能需要隔天才出完,根据我的经验,如果一天的Hits数量在500万以上的,基本是要第二天下午四五点左右才能出完数据;也可能会出现缩短时间的时候,数据数准确的,但是拉长时间的时候数据是不准确的,这时,就等到下午数据完全出完再看。

实时里面的数据通常是在几秒内出现的。

1.6.5限额问题

表1-27是针对免费版GA的限额

表1-27 GA限额

本文分享自微信公众号 - GA小站(ichdata),作者:Haran

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-10-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 8.1、用户数据与后台的获取与打通

    我们知道Google Analytics非常强大,只要添加一段基础跟踪代码就能够获得丰富的图标报告,但是你知道里面是数据是怎么来的?怎么获取的吗?

    GA小站
  • 2.3.8、Google Analytics高级应用——归因的几种用法

    归因模型是指一种或一组规则,用于确定如何将销售功劳和转化功劳分配给转化路径中的接触点。例如,在 GA中,“最终互动”模型会将 100% 的功劳分配给销售或转化之...

    GA小站
  • 2.2.2、Google Analytics高级应用——UTM参数的正确用法

    通常情况下,我们在做渠道划分的时候需要知道不同渠道带来多少流量,多少转化,需要将不同的渠道都区分开来,UTM就是专门应用于区分非Google推广渠道的,当然也可...

    GA小站
  • 爬取五大平台621款手机,告诉你双十一在哪买最便宜!

    明天就是双十一了,看了看自己手里的卡的像IE浏览器的手机,感觉可能等不到5G普及了。

    朱小五
  • 谈谈出入React框架踩过的坑

    1 在JSX的元素中写入内联样式,例如<div style={"color:blue"}></div> 报错:warning:Style prop value ...

    外婆的彭湖湾
  • 3亿人次的实战演习,如何做到丝般顺滑?

    本文介绍的是手机QQ与Qzone两个服务于海量用户的平台级业务,在无损用户服务质量的基准原则下,通过亿量级人次的限时调度实战演习来验证我们的异地容灾架构与快速调...

    织云平台团队
  • numpy: np.random模块 探究(源码)

    JNingWei
  • pygame-游戏开发学习笔记(九)–pygame.向量实现

    本文略难,系转载,原文出自,http://python.jobbole.com/83557/

    十四君
  • vue2

    v-model="变量",变量值与表单的value相关,placeholder属性是input框的默认值,v-model可以实现数据的双向绑定,变量的值可以影响...

    GH
  • Java8的List Object 去重

    假设Object为User,此处User类中省略getting/setting以及相关构造方法。

    汐楓

扫码关注云+社区

领取腾讯云代金券