CDN访问日志分析工具

在日常使用CDN的过程中,我们会遇到各种异常的访问情况,通过查看监控信息能够获取到一些基本的信息,但是想要细致的了解访问的真实情况,往往就需要下载访问日志进行分析。访问日志格式虽然固定,但是如果遇到访问量比较大的域名,阅读日志就是一个很漫长而又辛苦的过程,需要自己编写脚本实现日志的过滤。本文提供一套平时自己使用的日志过滤工具,可以简单快捷的对访问日志进行过滤,进而简化工作效率。

在对工具展开详细介绍之前,先简单介绍CDN的访问日志格式,具体的信息如下:

日志中对应的字段顺序(从左到右)及含义如下表所示:

顺序

日志内容

1

请求时间。

2

访问域名的客户端 IP。

3

被访问的域名。

4

文件请求路径。

5

本次访问字节数大小,包含文件本身大小及请求 header 头部大小,其中请求 header 是否命中,以及是在本节点或集群命中等都有可能会影响到字节数大小。

6

省份(省份编号映射请详见下文 省份映射)。

7

运营商(运营商编号映射请详见下文 运营商映射)。

8

HTTP 状态码。

9

Referer 信息。

10

响应时间(毫秒)。

11

User-Agent 信息。

12

Range 参数。

13

HTTP Method。

14

HTTP协议标识。

15

缓存 HIT/MISS。

具体的日志详细字段的解释说明以及下载方法可以参见 https://cloud.tencent.com/document/product/228/6316

日志分析工具介绍

下载日志可以直接访问 github 进行下载或者直接在Linux运行如下命令进行下载 git clone https://github.com/suxin1110/CDNClientLog.git 目前已近有如下分析内容,会不定期跟新: 1. 统计日志状态码

2. 请求命中率

3. 统计特定状态码对应访问URL

4. 统计特定状态码对应访问URL(去除参数)

5. 统计特定状态码对应Refere

6. 统计特定状态码对应客户端IP

7. 统计特定状态码对应的前N行日志

8. 统计特定客户端IP访问日志

下载后有一个clog.sh文件,该文件为CDN日志分析的简单shell脚本文件。

将CDN的访问日志下载下起来,方便起见可以将clog.sh和访问日志存放在一个文件夹下。CDN访问日志模式下载下来就会做gz压缩,运行该脚本不需要将CDN日志进行解压操作。脚本运行方法非常简单,具体如下: sh clog.sh CDNClientLogFileName.gz

脚本运行界面展示

脚本提供几个简单的日志过滤选择,按照需求选择需要的过滤方法。

1.统计日志状态码 选择1后,会直接进行日志状态码的分析并将分析的结果打印出来。

统计日志状态码

2.请求命中率

选择2后,会直接进行请求命中率的统计界面,展示信息如下:

请求命中率

3.统计特定状态码访问的url,在输入选项后需要输入对应的状态码。

统计特定状态码访问的url

其他日志过滤方法可以参考步骤3,后续还会继续跟新该脚本。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏开元说说

CDN系列学习文章(五)——预热篇

本文介绍CDN的内容管理中预热功能,主要从业务需求,业务逻辑以及常见问题三方面了解CDN预热功能。

50830
来自专栏FreeBuf

Facebook CDN系统中的文件下载漏洞

这篇Writeup分享的是Facebook CDN系统的文件下载漏洞,Facebook CDN平台中的文件名会被以某种加密方法进行编码,当发生请求调用或下载时则...

14340
来自专栏开元说说

CDN系列学习文章(七)——DNS&HTTP劫持篇

当你打开网页或者APP时,发现有些内容与当前业务几乎没有什么联系,而且这些内容有明显的营销或广告意图,这种场景大概率是劫持现象了。

48860
来自专栏服务器优惠介绍

腾讯云优惠券/腾讯云代金券等最新优惠活动

腾讯云依托强大的腾讯背景实力,与阿里云有很多的类似,即便从业云服务器产品比较晚,但是正因为有这么强大的背景优势也能获取到足够的市场份额。腾讯云与众多云服务商一样...

28730
来自专栏开元说说

CDN系列学习文章(四)——缓存机制

CDN服务器会将内容存储,以块形式,存储到磁盘中。磁盘容量是有限的,为了保持容量在一个健康水位,一般遵循删除策略(文件最久未访问)来淘汰文件。假设,互联网上所有...

53660
来自专栏朝雨忆轻尘

IT人如何打造个性化的个人网站(在线简历)

众所周知,IT行业人员在求职时,如果拥有自己的技术博客和个人网站多少是可以加些分的,因为这也是IT人的技术证明之一。内容丰富的技术博客就不必多少了,往往技术博客...

49140
来自专栏开元说说

CDN系列学习文章(六)——刷新篇

本文介绍CDN的内容管理中刷新功能,从刷新场景,业务逻辑以及常见问题来剖析CDN刷新功能。

36440
来自专栏Android技术分享

刷抖音上瘾后,决定探究如果做一款类似抖音短视频app

优质短视频内容的产生依赖于短视频的采集和特效编辑,这就要求在进行抖音APP开发时,用到基础的美颜、混音、滤镜、变速、图片视频混剪、字幕等功能,在这些功能基础上,...

39030
来自专栏编程坑太多

『互联网架构』软件架构-解密电商系统-页面静态化(81)

PS:秒杀系统不仅仅讲秒杀,主要是讲如何利用限流,缓存,异步分布式互联网大并发的场景。

19830
来自专栏网络安全防护

如何应用HTTPDNS及全站HTTPS协议避免域名被劫持?

域名对于公司重要吗?毋庸置疑的当然是很重要,域名就相当于一个门牌号,如果您去拜访别人,不知道门牌,是不是很耽误事呢?那么域名被劫持的可能性有哪几种呢?

20420

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励