袭击GA数据的新型引荐垃圾

余霞,iCDO翻译志愿者

若你看到你的数据里有很多引荐流量,别惊讶,你只是其中的一个。本文的作者Jonathan Hochman将给我们解释那些引荐垃圾是怎么发生的,并将在此给谷歌提出一些可借鉴的解决方案。

目前有种激增的新型引荐垃圾正在破坏着GA的数据集。这些引荐垃圾的攻击使得许多GA媒体资源中的引荐流量报告变得再无参考价值。对于小型企业网站型而言,这个问题甚至可能会非常严峻,因为它会严重地扭曲会话数和页面浏览次数。

例如下图的第1行、第2行和第5-9行的数据,都属于引荐垃圾流量。

引荐垃圾流量

流量报告被引荐垃圾严重地扭曲

为什么黑客要生成GA的引荐垃圾?网站管理员在查看GA时,通常都会访问数据中显示的网站。因此,引荐垃圾就利用了这种行为,通过网站管理员对这些网站的访问来产生流量、销售线索、传播恶意软件或进行网络钓鱼攻击。

如果你在你的引荐流量数据中看到可疑的网址,千万不要去访问它。一些黑客仅仅是为了从别人的痛苦中获得快乐,就像以下这个例子所示。

那么引荐垃圾流量是怎么产生的呢?有些黑客使用机器人,有些则在僵尸网络中使用被劫持的电脑。

一些黑客甚至可以在机器人无需真实访问你的网站的情况下就能自动进行虚拟访问。黑客仅需要运行GA跟踪的JavaScript即可使用欺诈性信息来对GA数据收集的服务器执行ping命令。

GA是在安全性问题没有被高度重视的情况下诞生的旧产品。它是通过使用唯一的跟踪代码来实现对每个媒体资源的跟踪,一个媒体资源可以是一个网站,一个app或者是其它的一些数字产品。不幸的是,那些跟踪代码是有顺序的,这个缺陷使得它很容易就能被猜测出来。

GA工具允许每个账号最多包含50个媒体资源,每个媒体资源有一个序列号,类似UA-12345-1这样格式的编号。UA的全名是’’UrchinAnalytics’’ ,也就是2005年谷歌收购Urchin之前的产品名。序列号的中间数字(12345)是账号ID。同一个账号下的所有媒体资源的中间数字(账号ID)都是一样的。

破折号后面的数字是媒体资源的编号,这些数字的范围是1到50。引荐垃圾的攻击主要针对编号是1的媒体资源,有时候是媒体资源2和媒体资源3。

如果你的网站有一个编号高的媒体资源(比如UA-98765-11),那么引荐垃圾则可能还没有对你的网站产生影响。那么为什么我们不直接创建一个编号高的媒体资源呢?

这个问题有两个原因。第一,一个新的媒体资源不具有历史数据,很难用它做数据分析。第二,如果很多人都使用这个策略,垃圾发送者将可能开始把目标放在编号更高的媒体资源上。

实际上,GA有提供一个过滤的选项。它就像我们在邮箱中习惯使用的反垃圾邮件的过滤器一样,但这些过滤器需要不断地更新,因为引荐垃圾发送者也在不断地发展新的战术。

在 ‘’删除GA中所有引荐垃圾流量的明确指南’’ 一文中,MikeSullivan给我们提供过一个关于阻止引荐垃圾的非常棒的方法,但这个方法很复杂。Sullivan以每个网站每年$75的收费来管理这个解决方案。对于负责数百个网站的顾问或公司的市场营销部门来讲,这是一笔不小的成本。对于整个GA用户群来说,这是一笔很大的资金。

除此之外,还有个与过滤器相关的风险,因为复杂的过滤器和“.htaccess”文件规则会不可避免地产生一些bugs,且需要反复地进行测试。一个错误的过滤器会使得大量的流量数据消失,并且再没有办法使其恢复。一个错误的“.htaccess”配置则会对访客造成严重的影响。

GA中的过滤器

过滤器只能阻止将来可能发生的引荐垃圾,并不能移除过去的引荐垃圾。要想得到一个未被污染的历史数据,创建一个自定义细分使之排除引荐垃圾流量是非常有必要的。如过滤一样,这个过程会增加其复杂性,并需要持续地更新。

由于其复杂性、成本和风险,目前还没有一个完全解决这一问题的理想办法。对于成千上万的网站管理员来说,实施相同的过滤器和自定义细分来解决同一个引荐垃圾的问题也是非常地浪费时间。

相反地,谷歌应提供一组预定义过滤器去消除绝大多数的虚假数据。

谷歌工作人员John Mu说过,谷歌正在努力地作出通用的解决方案。

(推文翻译:本文作者JonathanHochman曾在推特上圈出了谷歌的工作人员John Mu,希望谷歌能够给出一个可以排除带有假拉丁字符流量的选项,如Secret.ɢoogle.com 这种。John的答复是,“所以它们是没有非ascii编码字符的URLs?我相信@googleanalytics的牛人正在开发一些更通用的解决方案。”)

与此同时,谷歌也应该考虑一下这几个方面的问题:

  1. 提供一个简单的方法,将过滤器应用到过去的历史数据上,而无需设置自定义细分来移除引荐垃圾。
  2. 提供一种操作简单的下载和上传过滤器的方法。对于那些管理多个GA账号的人,这将节省相当多的时间,而不必在每个数据视图中重新输入过滤器的定义。
  3. 提供新的不可推测序列号的UA跟踪代码。目前UA账号是有序的,黑客轻易地就能一个账号接一个账号地强行攻击,因为媒体资源编号是按1到50来编排的。相反地,信用卡号码是按非连续、不可预测的顺序来编排的,这种情况就会有助于防止强行的攻击。

相比其它的网络犯罪行为,引荐垃圾不是特别地有利可图,但引荐垃圾是一种非常简单的引流方式,并已成为一种令人头疼的垃圾信息流。

一旦GA实施了通用的解决方案,黑客们的计算成本应该会相应提高,相信届时GA的引荐垃圾会因此而少很多。

原文发布于微信公众号 - 互联网数据官(internetcdo)

原文发表时间:2017-05-31

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏知晓程序

超实用!这 6 个小程序,你生活中一定用得上

「倒数记日」这款小程序能帮你记录生命中那些重要的日子,让你不再错过每一个难忘的时间。

11120
来自专栏梁源的专栏

iOS10凌晨1点发布,小源带你一起升级体验过程

11830
来自专栏即时通讯技术

解密“达达-京东到家”的订单即时派发技术原理和实践

达达-京东到家作为优秀的即时配送物流平台,实现了多渠道的订单配送,包括外卖平台的餐饮订单、新零售的生鲜订单、知名商户的优质订单等。为了提升平台的用户粘性,我们需...

26410
来自专栏程序员互动联盟

为啥安卓手机越用越卡?

根据第三方的调研数据显示,有77%的Android手机用户承认自己曾遭遇过手机变慢的影响,百度搜索“Android+卡慢”,也有超过460万条结果。在业内,An...

41670
来自专栏编程之旅

iOS漫谈——对于项目架构的思考

又一次的版本更新上架,心情容不得片刻舒缓,新的迭代任务又明白的摆在桌面上。今年上半年自己琢磨完ReactiveCocoa之后,对手上了项目做了MVVM架构的尝试...

15030
来自专栏FreeBuf

手机数据传输安全分析

如今手机已经成了我们离不开的伙伴和知己,它了解我们的日常生活。然而每一天在路上的时候,它都会收集我们的私密信息。平时我们会用它拍照,在社交网络中分享我们的心情;...

243100
来自专栏申龙斌的程序人生

笑来投资演练小程序0.9版本发布

在阅读了李笑来得到APP上《通往财富自由之路》专栏第24周的“开始投资活动的条件是什么”文章之后,我快速用C#写了一款windows小程序,没想到发布在学习小组...

34570
来自专栏FreeBuf

看我如何逆向智能手环控制无人机

一年前,我买了一个智能手环,型号为SONY SmartBand SWR10。就像大部分智能手环一样,它对我没什么用一直放在抽屉里。 背景 突然有一天我有了个很好...

251100
来自专栏施炯的IoT开发专栏

移动物联网 之 智能家居

本系列文章结合时下正热的“物联网”概念,介绍实现“智能家居”的一套解决方案。 引言     随着科技的发展,手机已经不简单地是个通讯设备,而是人们生活的必需...

28180
来自专栏ThoughtWorks

再看API设计——从黑客的角度 | TW洞见

今日洞见 文章作者、部分图片来自ThoughtWorks:贺思聪。 本文所有内容,包括文字、图片和音视频资料,版权均属ThoughtWorks公司所有,任何媒体...

32840

扫码关注云+社区

领取腾讯云代金券