专栏首页互联网数据官iCDO【实战101】手把手教你寻找并排除虚假异常流量!

【实战101】手把手教你寻找并排除虚假异常流量!

本文长度为1823字,预估阅读时间5分钟

引言:本文结合了作者丰富的互联网数据分析实战经验,深度剖析了如何运用GA来发现,分析并排除虚假和异常流量。

作者 | 孙维

编辑 | CiCi

我们为什么关注流量的变化?因为我们需要数据来指导和评判工作。但如果流量中混入了虚假/异常的成分,就可能导致我们做出错误的决策而蒙受损失。所以今天我要和大家分享一下如何用GA寻找异常流量,并且将其排除。这个过程大致可以分为三步:

发现异常流量

对于比较“低级”的异常流量,最容易在两个维度上被发现:

  • 小时分布

正常的流量在全天的分布大致如此:

而异常流量往往与之差异明显:

这些在凌晨依然活跃的流量非常可疑,此时我们可以调出第二指标的曲线,看看跳出率、会话时长和每次会话浏览页数。

常见的虚假流量每次会话只访问一个网页,也就是说跳出率是100%,会话时长是0,浏览页数是1,因此它们会明显影响整体粘性数据。

  • 直接来源流量

多数情况下的异常流量都是没有来源信息的,在GA里的来源/媒介是:(direct) / (none),所以如果我们发现无来源的流量有明显上涨,那就需要注意了。

同样的,我们也要看一下跳出率、会话时长和每次会话浏览页数,如果所有的都明显变差,那我们就更有把握认为这是异常流量。

发现可疑流量后,除了看粘性指标以外,也可以使用高级细分进行交叉验证。也就是用发现问题的那个维度进行条件细分,再到另一个维度中去查看数据。例如我们先细分出直接来源流量,再看它的小时分布,就更能断定其中有问题。

  • 其他异常流量

除了以上两种最简单的情况之外,有时异常流量并不那么明显。例如我们见过来源是 baidu / organic 的奇怪流量,它们只访问特定的三个页面,并且只在中午12点以后访问。这样的流量是怎么被发现的呢?

首先我们在“受众群体-技术-网络-主机名”中看到某个域名的会话数明显上涨,然后到“行为-网站内容-所有页面-内容分组”中,查看到底是哪类页面访问量上升了(注意,内容分组需要额外设置才会有),找到之后再看这类页面之下是哪些具体页面在上涨,最后再用高级细分聚焦这几个页面,于是发现了以上的问题。

经过多方查证之后我们基本认定,这是某个厂商在试图提升自己网站在百度的自然搜索排名。但如果只在搜索结果中点击该厂商自己的网站,太容易被认定为作弊,所以他们就连带着点击搜索结果中的其他网站,包括我们的页面,于是我们就看到了上面那一幕。

总结一下,如果发现流量明显上涨,首先可以看小时和直接来源流量这两个维度有没有异常。其次可以在各个维度中寻找,有没有粘性指标明显变差的个别项目。找到以后,接下来的步骤就是分析异常流量。

分析异常流量

仅仅发现异常流量还不够,我们需要找到它们的特征才能将其精准排除。例如我们发现直接来源流量明显上涨,但并不能把所有直接来源都排除掉,毕竟其中还有很多真实流量。要想精准排除,首先要将异常流量“提纯”——我们先用高级细分聚焦直接来源流量,看看能在哪些维度上发现特征:

建立高级细分后,我们到各个报告中浏览一下,果然发现了异常状况:

明明是移动版的网站,为什么突然增加了这么多Windows操作系统的访问量?而且几乎全是新用户,显然有问题。

我们再调出次级维度,看看浏览器UA的信息。结果这下更不得了,Windows居然用上了iPhone浏览器,这流量的异常算是证实了。(这里需要解释一下:这个“浏览器UA”是我们在GA中配置的自定义维度1,然后需要在统计代码中加入:

'dimension1':navigator.userAgent

才可以生效。浏览器UA是寻找虚假流量的利器,建议大家都配置一下)

排除异常流量

当我们找到了异常流量的特征,后续的事情就简单了:建一个高级细分,将Windows系统并且浏览器UA中包含iPhone的会话排除掉,这些异常流量就消失了。

以上是“发现-分析-排除”异常流量的一个案例,可以看到其中最重要的步骤其实是第二步——只有在某些维度上能够精准筛选出异常流量,才能在不影响正常流量的情况下将其排除。以下是我最近遇到的另一个异常流量,它的特征是浏览器UA开头结尾都带有双引号(正常情况不该有):

在这种情况下,除了用高级细分排除异常之外,还有一个更好的解决方案:在前端统计代码中直接加入判断,如果发现以双引号开头和结尾的浏览器UA数据,就不执行统计代码,于是这些异常流量就被从根源上排除了,根本不会进入数据系统之中。

另外对于GA的用户,在用于做分析的主视图中一定要把下面这个选项选中,能排除掉大部分爬虫流量:

最后还有一种常见情况,例如运营论坛的同事做了一个“签到抽大奖”的活动,就可能导致大量低粘度的用户突然访问,看起来似乎也是异常,所以作为分析师要经常和产品/运营部门沟通,避免做无用功。

最后我想说的是,发现和排除异常流量是一场持久战,没有永远的赢家和输家,我们能做的就是和同事一起不断发现和总结,提升识别和排除异常流量的能力。

关于作者

孙维,卡车之家数据资产中心总监,互联网从业15年,数据分析从业6年老兵。Google Analytics资深使用者,「数据分析日常」公众号博主

本文分享自微信公众号 - 互联网数据官(internetcdo)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-10-31

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 转化与流量到底哪一个更重要?

    梅子,iCDO翻译志愿者 前言:当公司发展到一定程度,把有限的资源投入到引流还是转化是个千年不变的难题,本文作者通过几个简单的例子,告诉我们他的思考和经验。 为...

    iCDO互联网数据官
  • 2017,这四种方法帮你获知陌生网站的流量

    我在8年前写过一篇文章:如何获知陌生网站的流量?这篇文章是这个博客最大阅读量的文章之一。8年过去了,方法虽然类似,但是工具和解决方案已经有所不同。 值得对这个...

    iCDO互联网数据官
  • 流量那么多,却没有效果!试试这2招

    背景 如今的数字营销圈有个共识:流量红利几乎消耗殆尽!我们先从这个观点本身入手,看看这个观点到底是怎么来的,追本溯源找到问题之所在。 笔者制作了下...

    iCDO互联网数据官
  • 干货分享 | 互联网教育三种流量获取玩法解析

    ? 想要了解—— 如何线上线下精准引流与口碑营销? 如何将多渠道流量更有效的承接与转化? 如何分类留存新老学员降低流失率? 扫描下方二维码 马上观看 教育行业...

    腾讯企点
  • 什么是纯流量卡,物联卡好用吗?怎么闭坑?

    流量卡就是物联网卡,俗称:流量卡、物联卡、只有上网功能,没有语音和短信功能的卡90%都是物联卡。什么大圣卡,金象卡,红桃卡,黑桃卡,小象卡,龙神卡,普天卡,这些...

    用户7152677
  • 纯流量卡,物联卡,到底是什么?如何避坑?

    首先流量卡就是物联网卡,俗称:流量卡、物联卡、网上只要能上网,不能打电话的卡,百分之99.9都是物联卡。什么乞丐卡,天神卡,红桃卡,黑桃卡,小象卡,...

    用户7152677
  • 你方唱罢我登场:春节红包大战的流量新逻辑

    2018年,我们在春节期间还在忙着各式各样的答题通关冲顶;2019年,我们在春节期间则已经开始了各大平台各式各样的抢红包大战。尽管模式和套路并不相同,但是答题冲...

    孟永辉
  • 被逼上“梁山”,运营商该如何转向流量经营?

    2015年对于运营商而言,是兵荒马乱的一年。OTT业务的影响愈发明显、4G时代到来三大运营商竞争趋激、虚拟运营商已成气候、政府反腐行动的波及、骚扰电话整治直接影...

    罗超频道
  • 腾讯TMQ在线沙龙|移动互联网APP的流量测试和优化经验

    移动APP的流量测试和优化经验 活动时间:2016年12月8日 QQ群视频交流 活动介绍:TMQ在线沙龙第十四期分享 本次分享的主题是移动互联网APP的流量测试...

    腾讯移动品质中心TMQ
  • 如何增加网站流量?这是最有效的方法!

    通过网站来获取流量已经是互联网营销必须要做的事情之一,其实网站流量除了可以带给品牌曝光之外,更是企业及个人品牌的最重要的资产。本篇文章一尘SEO将介绍网站流量的...

    一尘SEO

扫码关注云+社区

领取腾讯云代金券