垃圾流量和蜘蛛机器人一直在你的Google analysis中显示?

【此文章是阿沐整理创作的第26篇原创文章】谷歌分析(Google analysis)中有一个强大的内置过滤器功能,有助于防止垃圾邮件、机器人和其他破坏数据完整性的垃圾流量。然而,我经常发现那些不使用这些工具的网站,或者他们使用这些工具的网站,任然出现这些垃圾流量,形式奇形怪状,原因有哪些呢?

为了获得准确的数据,避免浪费你的时间,出现分析错误,今天就简单的说一下如何有效地处理分析中的不同类型的垃圾流量。

谷歌分析中的垃圾信息可以分为两种类型: ghosts and crawlers

1、Ghosts

大多数垃圾邮件都是这种类型的。 他们之所以被称为Ghosts,是因为他们从来没有访问过你的网站。比如这种的,大家肯定是见过的:

best-deal-hdd.pro巜─━─═━═─━━════━━visit━us

best-deal-hdd.pro◄══━═══━━━━━═━══visit─us

看起来是不是很搞笑,因为这种垃圾邮件与你的网站完全没有任何互动,你可能会想,这怎么可能,因为 GA 的主要目的之一不就是跟踪我们网站的访问吗?哈哈,其实更厉害的是,他们倒是可以通过使用Measurement Protocol来实现这一点,该协议允许用户直接将数据发送到 Google Analytics 的服务器上。使用这种方法,它可以随机生成跟踪代码(UA-XXXXX-1) ,垃圾邮件制造者会在不知道对方是谁的情况下,再使用假数据进行"访问"你的网站。

2、Crawlers

这种垃圾流量,与垃圾邮件相反,它是确实可以访问你的网站的。这些垃圾流量机器人会顺着你的网页,无视像 robots.txt 那样的规则,爬取阅读你的网站。当它们离开你的网站时,他们会在你的报告上留下类似于正常访问的记录。

很多人肯定都试过从 Htaccess 文件来阻止 Ghost Spam,或者使用引荐排除列表来阻止垃圾邮件,都没能起到很好的作用,这是因为Htaccess 文件无法阻止没有访问的流量,也就是Ghosts,而引荐排除虽然能阻止一些,但是那些通过其他方法进来的就没辙了。通常拥有大流量的大网站最容易受到垃圾邮件的影响,尽管影响不是致命的,但无效的流量意味着不准确的数据报告。作为一个数据分析师,你应当能够解释细致的报告中发生了什么以及怎么去避免。

那么怎么办呢?可以换个思维,反过来操作,就是直接只允许你自己设置的hostname来访问,其他的都屏蔽掉,hostname怎么找呢,看下图:

对于中小站点来说,当你确定你已经得到了所有这些hostname之后,你就可以创建一个类似于这个的正则表达式:

example\.com|anotherexample\.com| anotherexample\.com| anotherexample\.com

里面的域名大家自己去填下就好了,记住你不需要把所有的子域名都放在正则表达式中,因为一个主域将匹配所有这些,所以没必要。

最后就是创建一个自定义过滤器

进入“过滤器”,然后点击添加新的过滤器,进入这个界面:

创建完之后验证一下看看,点击保存。这个过滤器将屏蔽你设置的无效主机名的垃圾流量, 但重要的是,每次在ga中看到其他有效的主机名时,记得要将其添加到筛选器正则里面去。当然,这些操作都只适合中小网站,一般情况下都够用,大型网站我也在慢慢研究,我到时候出个付费教程,不想折腾的或者有需要的小伙伴可留言。

版权声明:

本订阅号的所有文字、图片资料,均由作者亲自整理创作,任何媒体、网站或个人未经本网协议授权不得复制、转载、转贴或以其他方式复制发布/发表,请尊重我的劳动成果,侵权必究,谢谢。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180621G1L8NZ00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券