袭击GA数据的新型引荐垃圾

iCDO互联网数据官

发布于 2018-03-05 10:30:06

1.1K0

发布于 2018-03-05 10:30:06

文章被收录于专栏：互联网数据官iCDO

余霞，iCDO翻译志愿者

若你看到你的数据里有很多引荐流量，别惊讶，你只是其中的一个。本文的作者Jonathan Hochman将给我们解释那些引荐垃圾是怎么发生的，并将在此给谷歌提出一些可借鉴的解决方案。

目前有种激增的新型引荐垃圾正在破坏着GA的数据集。这些引荐垃圾的攻击使得许多GA媒体资源中的引荐流量报告变得再无参考价值。对于小型企业网站型而言，这个问题甚至可能会非常严峻，因为它会严重地扭曲会话数和页面浏览次数。

例如下图的第1行、第2行和第5-9行的数据，都属于引荐垃圾流量。

引荐垃圾流量

流量报告被引荐垃圾严重地扭曲

为什么黑客要生成GA的引荐垃圾？网站管理员在查看GA时，通常都会访问数据中显示的网站。因此，引荐垃圾就利用了这种行为，通过网站管理员对这些网站的访问来产生流量、销售线索、传播恶意软件或进行网络钓鱼攻击。

如果你在你的引荐流量数据中看到可疑的网址，千万不要去访问它。一些黑客仅仅是为了从别人的痛苦中获得快乐，就像以下这个例子所示。

那么引荐垃圾流量是怎么产生的呢？有些黑客使用机器人，有些则在僵尸网络中使用被劫持的电脑。

一些黑客甚至可以在机器人无需真实访问你的网站的情况下就能自动进行虚拟访问。黑客仅需要运行GA跟踪的JavaScript即可使用欺诈性信息来对GA数据收集的服务器执行ping命令。

GA是在安全性问题没有被高度重视的情况下诞生的旧产品。它是通过使用唯一的跟踪代码来实现对每个媒体资源的跟踪，一个媒体资源可以是一个网站，一个app或者是其它的一些数字产品。不幸的是，那些跟踪代码是有顺序的，这个缺陷使得它很容易就能被猜测出来。

GA工具允许每个账号最多包含50个媒体资源，每个媒体资源有一个序列号，类似UA-12345-1这样格式的编号。UA的全名是’’UrchinAnalytics’’ ，也就是2005年谷歌收购Urchin之前的产品名。序列号的中间数字（12345）是账号ID。同一个账号下的所有媒体资源的中间数字（账号ID）都是一样的。

破折号后面的数字是媒体资源的编号，这些数字的范围是1到50。引荐垃圾的攻击主要针对编号是1的媒体资源，有时候是媒体资源2和媒体资源3。

如果你的网站有一个编号高的媒体资源（比如UA-98765-11），那么引荐垃圾则可能还没有对你的网站产生影响。那么为什么我们不直接创建一个编号高的媒体资源呢？

这个问题有两个原因。第一，一个新的媒体资源不具有历史数据，很难用它做数据分析。第二，如果很多人都使用这个策略，垃圾发送者将可能开始把目标放在编号更高的媒体资源上。

实际上，GA有提供一个过滤的选项。它就像我们在邮箱中习惯使用的反垃圾邮件的过滤器一样，但这些过滤器需要不断地更新，因为引荐垃圾发送者也在不断地发展新的战术。

在 ‘’删除GA中所有引荐垃圾流量的明确指南’’ 一文中，MikeSullivan给我们提供过一个关于阻止引荐垃圾的非常棒的方法，但这个方法很复杂。Sullivan以每个网站每年$75的收费来管理这个解决方案。对于负责数百个网站的顾问或公司的市场营销部门来讲，这是一笔不小的成本。对于整个GA用户群来说，这是一笔很大的资金。

除此之外，还有个与过滤器相关的风险，因为复杂的过滤器和“.htaccess”文件规则会不可避免地产生一些bugs，且需要反复地进行测试。一个错误的过滤器会使得大量的流量数据消失，并且再没有办法使其恢复。一个错误的“.htaccess”配置则会对访客造成严重的影响。

GA中的过滤器

过滤器只能阻止将来可能发生的引荐垃圾，并不能移除过去的引荐垃圾。要想得到一个未被污染的历史数据，创建一个自定义细分使之排除引荐垃圾流量是非常有必要的。如过滤一样，这个过程会增加其复杂性，并需要持续地更新。

由于其复杂性、成本和风险，目前还没有一个完全解决这一问题的理想办法。对于成千上万的网站管理员来说，实施相同的过滤器和自定义细分来解决同一个引荐垃圾的问题也是非常地浪费时间。

相反地，谷歌应提供一组预定义过滤器去消除绝大多数的虚假数据。

谷歌工作人员John Mu说过，谷歌正在努力地作出通用的解决方案。

（推文翻译：本文作者JonathanHochman曾在推特上圈出了谷歌的工作人员John Mu，希望谷歌能够给出一个可以排除带有假拉丁字符流量的选项，如Secret.ɢoogle.com 这种。John的答复是，“所以它们是没有非ascii编码字符的URLs？我相信@googleanalytics的牛人正在开发一些更通用的解决方案。”）

与此同时，谷歌也应该考虑一下这几个方面的问题：

提供一个简单的方法，将过滤器应用到过去的历史数据上，而无需设置自定义细分来移除引荐垃圾。
提供一种操作简单的下载和上传过滤器的方法。对于那些管理多个GA账号的人，这将节省相当多的时间，而不必在每个数据视图中重新输入过滤器的定义。
提供新的不可推测序列号的UA跟踪代码。目前UA账号是有序的，黑客轻易地就能一个账号接一个账号地强行攻击，因为媒体资源编号是按1到50来编排的。相反地，信用卡号码是按非连续、不可预测的顺序来编排的，这种情况就会有助于防止强行的攻击。

相比其它的网络犯罪行为，引荐垃圾不是特别地有利可图，但引荐垃圾是一种非常简单的引流方式，并已成为一种令人头疼的垃圾信息流。

一旦GA实施了通用的解决方案，黑客们的计算成本应该会相应提高，相信届时GA的引荐垃圾会因此而少很多。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2017-05-31，如有侵权请联系 cloudcommunity@tencent.com 删除

访问管理