【学习】通过简单的Excel分析网站日志数据

昨天在一个QQ交流群里看到有一个新手发问,如何去简单的分析网站日志,清楚知道网站的一个数据抓取情况,哪些目录抓取较好,有哪些IP段蜘蛛抓取等。

一个网站要发展的更快,走的更远,它离不开日常的一个数据分析,就如携程旅行网页搜索营销部孙波在《首届百度站长交流会》上所言,其利用数据模型对频道改版后,网页索引量从原来的十几万,上升到今年的500多万的索引量。由此可见,数据分析的重要性。

说到每日的网站日志分析,在这里强调下,我需要用到两个工具:Excel和光年日志分析工具。可能也有朋友在对网站的日志分析时,需要另外用到一个工具Web Log Explorer。

其实在网站日志分析中,最需要用到的工具就是Excel(07版Excel或10版Excel),在这里,简单跟大家交流一下我的一点经验。

网站体抓取情况统计:

借助光年日志分析工具,获取各个搜索引擎的蜘蛛总抓取量、蜘蛛总停留时间、蜘蛛来访次数(本人由于只做百度优化,就说说百度蜘蛛抓取情况),如下图1:

把这上面的数据做成Excel即可,如下图2:

平均停留时间=总停留时间/访问次数, 计算公式:=C2/B2 enter键

平均抓取量=总抓取量/访问次数, 计算公式:=D2/B2 enter键

单页面抓取时间==停留时间*3600/总抓取量 计算公式:=D2/C2 enter键

蜘蛛状态码统计:

借助Excel表格,打开日志(最直接的办法,就是它日志拖到Excel表格里),然后再统计蜘蛛状态码,如下图3:

通过Excel表格下的“数据”功能下的筛选,下面就可以对蜘蛛状态码进行统计了,具体的统计操作如下图4:

点击IP段下拉框,找到文本筛选,选择自定义筛选。

通过图3,可以看出,蜘蛛抓取的状态码200特征是HTTP/1.1" 200,以此类推:状态码500是HTTP/1.1" 500、状态码404是HTTP/1.1" 404、状态码302是HTTP/1.1" 302…..下面就可以筛选出各个蜘蛛状态码,如下图:

如上图5,选择包含关系,即可以统计出百度蜘蛛200状态码的抓取量,其他以此类推。

蜘蛛IP段统计:

如上图,把状态码换成IP段就可以,如:HTTP/1.1" 200换成202.108.251.33

目录抓取统计:

如上图,把状态码换成相应目录名就可以,如:HTTP/1.1" 200换成/tagssearchList/

总结一下:

如何通过简单的Excel分析网站日志数据,就介绍到这里。不知道身为seo的你平常有没有分析网站日志呢。反正我平常都分析这个东东的。自认对网站的日志进行分析是很有必要的。至于分析的这些数据,有什么作用,如何通过这些数据查到网站的不足之处,然后列出调整方案,有步骤的去调整网站的结构,相信有很多人已经写过了,我在这里,就不再多说了。

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2014-04-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏乐沙弥的世界

DBA 的那些事

      说起DBA,全称是Database Administrator,不是Doctor of Business Administration,千万不要误解...

13800
来自专栏云计算

云计算领域中你需要知道的 52 个术语

你觉得你已经对云服务的所有东西了如指掌了吗?那么,来看一下这份由云服务相关的术语、短语、工具和服务提供商组成的列表来确保你确实做到了这一点吧。

31490
来自专栏程序人生

Docker hackathon, teamspark 及团队协作软件设计上的思考

这个周末我参加了docker hackathon,一个旨在为docker 2015大会暖场的编程马拉松。大赛在旧金山Mission St.上的万豪举行,硕大的餐...

33030
来自专栏北京马哥教育

专为设计师而写的GitHub快速入门教程

在互联网行业工作的想必都多多少少听说过GitHub的大名,除了是最大的开源项目托管平台,许多企业也都是用GitHub来协同开发工作,当然我们彩程也是其中之一。笔...

39960
来自专栏Bug生活2048

告别单调工作系列——利用python「拯救」漂亮妹子

在进入正题前想聊下这位漂亮妹子「不要想多了,只是聊聊漂亮妹子的工作」,这位妹子虽然苦恼,但她做这样的事情已经一年多了,可谓毅力可嘉,有时候我就会觉得很奇怪,为什...

10720
来自专栏互联网研发闲思录

手机QQ公众号亿级消息实时群发架构

编者按:高可用架构分享及传播在架构领域具有典型意义的文章,本文由孙子荀分享。转载请注明来自高可用架构公众号 ArchNotes。

28540
来自专栏杨建荣的学习笔记

关于自动化平台的动态菜单设计(二)

最近有一个很深刻的感受,那就是开发的中途被打断,然后重新恢复上下文需要花费更多的时间,而如果中间间隔几天,原来对于这个产品的认知和理解会立马下降,这一点在我接触...

41250
来自专栏Python绿色通道

用Python抓取某大V的公众号文章

我之前用Charles来抓取了得到App的音频资料 抓取得到App音频数据,于是又收到有读者要我抓取公众号文章,于是就有了这一篇文章. 不知道爬谁的文章好,想了...

76140
来自专栏腾讯Bugly的专栏

iOS10 SiriKit QQ适配详解

1. 概述 苹果在 iOS10 开放了 SiriKit 接口给第三方应用。目前,QQ已经率先适配了 Siri 的发消息和打电话功能。这意味着在 iOS10 中你...

36430
来自专栏鹅厂网事

全局精确流量调度新思路-HttpDNS服务详解

小编:对于互联网,域名是访问的第一跳,而这一跳很多时候会“失足”,导致访问错误内容,失败连接等,让我们在互联网上畅游的爽快瞬间消失,而对于这关键的第一跳,鹅厂也...

1.1K100

扫码关注云+社区

领取腾讯云代金券