专栏首页互联网数据官iCDO袭击GA数据的新型引荐垃圾

袭击GA数据的新型引荐垃圾

余霞,iCDO翻译志愿者

若你看到你的数据里有很多引荐流量,别惊讶,你只是其中的一个。本文的作者Jonathan Hochman将给我们解释那些引荐垃圾是怎么发生的,并将在此给谷歌提出一些可借鉴的解决方案。

目前有种激增的新型引荐垃圾正在破坏着GA的数据集。这些引荐垃圾的攻击使得许多GA媒体资源中的引荐流量报告变得再无参考价值。对于小型企业网站型而言,这个问题甚至可能会非常严峻,因为它会严重地扭曲会话数和页面浏览次数。

例如下图的第1行、第2行和第5-9行的数据,都属于引荐垃圾流量。

引荐垃圾流量

流量报告被引荐垃圾严重地扭曲

为什么黑客要生成GA的引荐垃圾?网站管理员在查看GA时,通常都会访问数据中显示的网站。因此,引荐垃圾就利用了这种行为,通过网站管理员对这些网站的访问来产生流量、销售线索、传播恶意软件或进行网络钓鱼攻击。

如果你在你的引荐流量数据中看到可疑的网址,千万不要去访问它。一些黑客仅仅是为了从别人的痛苦中获得快乐,就像以下这个例子所示。

那么引荐垃圾流量是怎么产生的呢?有些黑客使用机器人,有些则在僵尸网络中使用被劫持的电脑。

一些黑客甚至可以在机器人无需真实访问你的网站的情况下就能自动进行虚拟访问。黑客仅需要运行GA跟踪的JavaScript即可使用欺诈性信息来对GA数据收集的服务器执行ping命令。

GA是在安全性问题没有被高度重视的情况下诞生的旧产品。它是通过使用唯一的跟踪代码来实现对每个媒体资源的跟踪,一个媒体资源可以是一个网站,一个app或者是其它的一些数字产品。不幸的是,那些跟踪代码是有顺序的,这个缺陷使得它很容易就能被猜测出来。

GA工具允许每个账号最多包含50个媒体资源,每个媒体资源有一个序列号,类似UA-12345-1这样格式的编号。UA的全名是’’UrchinAnalytics’’ ,也就是2005年谷歌收购Urchin之前的产品名。序列号的中间数字(12345)是账号ID。同一个账号下的所有媒体资源的中间数字(账号ID)都是一样的。

破折号后面的数字是媒体资源的编号,这些数字的范围是1到50。引荐垃圾的攻击主要针对编号是1的媒体资源,有时候是媒体资源2和媒体资源3。

如果你的网站有一个编号高的媒体资源(比如UA-98765-11),那么引荐垃圾则可能还没有对你的网站产生影响。那么为什么我们不直接创建一个编号高的媒体资源呢?

这个问题有两个原因。第一,一个新的媒体资源不具有历史数据,很难用它做数据分析。第二,如果很多人都使用这个策略,垃圾发送者将可能开始把目标放在编号更高的媒体资源上。

实际上,GA有提供一个过滤的选项。它就像我们在邮箱中习惯使用的反垃圾邮件的过滤器一样,但这些过滤器需要不断地更新,因为引荐垃圾发送者也在不断地发展新的战术。

在 ‘’删除GA中所有引荐垃圾流量的明确指南’’ 一文中,MikeSullivan给我们提供过一个关于阻止引荐垃圾的非常棒的方法,但这个方法很复杂。Sullivan以每个网站每年$75的收费来管理这个解决方案。对于负责数百个网站的顾问或公司的市场营销部门来讲,这是一笔不小的成本。对于整个GA用户群来说,这是一笔很大的资金。

除此之外,还有个与过滤器相关的风险,因为复杂的过滤器和“.htaccess”文件规则会不可避免地产生一些bugs,且需要反复地进行测试。一个错误的过滤器会使得大量的流量数据消失,并且再没有办法使其恢复。一个错误的“.htaccess”配置则会对访客造成严重的影响。

GA中的过滤器

过滤器只能阻止将来可能发生的引荐垃圾,并不能移除过去的引荐垃圾。要想得到一个未被污染的历史数据,创建一个自定义细分使之排除引荐垃圾流量是非常有必要的。如过滤一样,这个过程会增加其复杂性,并需要持续地更新。

由于其复杂性、成本和风险,目前还没有一个完全解决这一问题的理想办法。对于成千上万的网站管理员来说,实施相同的过滤器和自定义细分来解决同一个引荐垃圾的问题也是非常地浪费时间。

相反地,谷歌应提供一组预定义过滤器去消除绝大多数的虚假数据。

谷歌工作人员John Mu说过,谷歌正在努力地作出通用的解决方案。

(推文翻译:本文作者JonathanHochman曾在推特上圈出了谷歌的工作人员John Mu,希望谷歌能够给出一个可以排除带有假拉丁字符流量的选项,如Secret.ɢoogle.com 这种。John的答复是,“所以它们是没有非ascii编码字符的URLs?我相信@googleanalytics的牛人正在开发一些更通用的解决方案。”)

与此同时,谷歌也应该考虑一下这几个方面的问题:

  1. 提供一个简单的方法,将过滤器应用到过去的历史数据上,而无需设置自定义细分来移除引荐垃圾。
  2. 提供一种操作简单的下载和上传过滤器的方法。对于那些管理多个GA账号的人,这将节省相当多的时间,而不必在每个数据视图中重新输入过滤器的定义。
  3. 提供新的不可推测序列号的UA跟踪代码。目前UA账号是有序的,黑客轻易地就能一个账号接一个账号地强行攻击,因为媒体资源编号是按1到50来编排的。相反地,信用卡号码是按非连续、不可预测的顺序来编排的,这种情况就会有助于防止强行的攻击。

相比其它的网络犯罪行为,引荐垃圾不是特别地有利可图,但引荐垃圾是一种非常简单的引流方式,并已成为一种令人头疼的垃圾信息流。

一旦GA实施了通用的解决方案,黑客们的计算成本应该会相应提高,相信届时GA的引荐垃圾会因此而少很多。

本文分享自微信公众号 - 互联网数据官(internetcdo),作者:余霞

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-05-31

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 怎么衡量SEO的价值?5个必用的数据方法

    译者:Lisa 本文长度为1899字,预估阅读时间3分钟。 如果一个小型企业每个月支付你几百上千美元,你怎么向他们证明他们从你的服务中得到了价值? 这个话题有很...

    iCDO互联网数据官
  • 数据管理领域中国新力量:本土企业树标杆

    全球权威调研机构Forrester近日发布了《2019年二季度亚太地区数据管理平台研究报告》(The Forrester Now Tech: Data Mana...

    iCDO互联网数据官
  • iCDO一周数据要闻:互联网巨头联合推出替代传统API数据转移项目;国资、上市系P2P激烈洗牌将继续;拼多多市值将超240亿美元

    7月20日消息,近日Goolge大幅度提高了API 收费标准,比之前要高14倍,同时免费使用的限制也缩小到原来的三十分之一,这些举措都是为了扩大Google地图...

    iCDO互联网数据官
  • 科普 | 论垃圾分类与边缘计算的关系

    最后,再从垃圾中转站运到垃圾填埋场或焚烧厂,进行掩埋、焚烧。也有部分垃圾,会进行分拣处理再利用。

    CloudBest
  • 一款能自动收集海洋垃圾的水上无人设备

    据《科学》(Science)统计 全球每年流入海洋的塑料垃圾达800万吨 相当于每英尺海岸线有5只塞满塑料的食品袋 ? 塑料垃圾不但是影响观感的废弃污染物 对海...

    机器人网
  • AI智能识别垃圾:这款众望所归的神器终于上线了!

    7月1日起,《上海市生活垃圾管理条例》正式实施。上海市民们每日积极上线,练级打怪、刷了一个多月经验,正式进入了强制垃圾分类时代。

    CDA数据分析师
  • 数据结构图在python中的应用

    用户1634449
  • ​在tinycolinux32上装tinycolinux64 kernel和toolchain

    本文关键字:高版本gcc cross compile 交叉编译低版本gcc,boostrap,为tinycolinux低版本linux kernel生成gcc,...

    minlearn
  • flume kafka和sparkstreaming整合

    本文介绍Flume、Kafka和Sparkstreaming的整合。代码流程是,我们通过shell脚本重播测试轨迹数据到指定轨迹文件中,使用Flume监听该轨迹...

    soundhearer
  • SpringMVC

    用户3112896

扫码关注云+社区

领取腾讯云代金券