Nginx 日志分享

Nginx 日志对于大部分人来说是个未被发掘的宝藏,总结之前做某日志分析系统的经验,和大家分享一下 Nginx 日志的纯手工分析方式。

Nginx 日志相关配置有 2 个地方:access_log 和 log_format 。

默认的格式:

access_log /data/logs/nginx-access.log;
log_format old '$remote_addr [$time_local] $status $request_time $body_bytes_sent '
'"$request" "$http_referer" "$http_user_agent"';

相信大部分用过 Nginx 的人对默认 Nginx 日志格式配置都很熟悉,对日志的内容也很熟悉。但是默认配置和格式虽然可读,但是难以计算。

Nginx 日志刷盘相关策略可配置:

比如,设置 buffer,buffer 满 32k 才刷盘;假如 buffer 不满 5s 钟强制刷盘的配置如下:

access_log /data/logs/nginx-access.log buffer=32k flush=5s;

这决定了是否实时看到日志以及日志对磁盘 IO 的影响。

Nginx 日志能够记录的变量还有很多没出现在默认配置中:

比如:

请求数据大小:$request_length

返回数据大小:$bytes_sent

请求耗时:$request_time

所用连接序号:$connection

当前连接发生请求数:$connection_requests

Nginx 的默认格式不可计算,需要想办法转换成可计算格式,比如用控制字符 ^A (Mac 下 ctrl+v ctrl+a 打出)分割每个字段。

log_format 的格式可以变成这样:

log_format new '$remote_addr^A$http_x_forwarded_for^A$host^A$time_local^A$status^A'
'$request_time^A$request_length^A$bytes_sent^A$http_referer^A$request^A$http_user_agent';

这样之后就通过常见的 Linux 命令行工具进行分析了:

1.查找访问频率最高的 URL 和次数:

cat access.log | awk -F '^A' '{print $10}' | sort | uniq -c

2.查找当前日志文件 500 错误的访问:

cat access.log | awk -F '^A' '{if($5 == 500) print $0}'

3.查找当前日志文件 500 错误的数量:

cat access.log | awk -F '^A' '{if($5 == 500) print $0}' | wc -l

4.查找某一分钟内 500 错误访问的数量:

cat access.log | awk -F '^A' '{if($5 == 500) print $0}' | grep '09:00' | wc-l

5.查找耗时超过 1s 的慢请求:

tail -f access.log | awk -F '^A' '{if($6>1) print $0}'

假如只想查看某些位:

tail -f access.log | awk -F '^A' '{if($6>1) print $3"|"$4}'

6.查找 502 错误最多的 URL:

cat access.log | awk -F '^A' '{if($5==502) print $11}' | sort | uniq -c

7.查找 200 空白页

cat access.log | awk -F '^A' '{if($5==200 && $8 < 100) print $3"|"$4"|"$11"|"$6}'

8.查看实时日志数据流

tail -f access.log | cat -e 或者 tail -f access.log | tr '^A' '|'

9.统计访问最多的ip

tail -n 10000 access_log | awk '{print $1}'|sort|uniq -c|sort -rn|head -10 | more

10.通过日志查看当天访问次数最多的时间段

tail -n 1000 access_log | awk '{print $4}'|cut -c 14-21 |sort|uniq -c|sort -rn|head -10|more

 11.统计访问最多的url

tail -n 10000 access_log |awk -F '"' '{print $2}'| sort|uniq -c| sort -rn| head -20 | more

或者
cat access_log |awk -F '"' '{print $2}'| sort|uniq -c| sort -rn| head -20 | more

总结

照着这个思路可以做很多其他分析,比如 UA 最多的访问;访问频率最高的 IP;请求耗时分析;请求返回包大小分析;等等。

这就是一个大型 Web 日志分析系统的原型,这样的格式也是非常方便进行后续大规模 batching 和 streaming 计算。

link:http://blog.eood.cn/nginx_logs

想起很早之前zone有人问过nginx日志分析,正好今天看到这篇文章,自己实践了下,觉得不错,分享下:)

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏性能与架构

Redis 4.0 新特性

简介 Redis 4.0 即将发布,这是个很重要的版本,变动比较大,下面看几个重要的新特性。 推出模块系统 通过模块系统,我们可以对Redis进行自定义扩展,实...

44480
来自专栏chenssy

【死磕Sharding-jdbc】---orchestration简介使用

sharding-jdbc2.x核心功能之一就是orchestration,即编排治理,什么意思呢?官方文档介绍--2.0.0.M1版本开始,sharding-...

28040
来自专栏Java成神之路

Java微信开发_Exception_03_errcode:48001 errmsg:api unauthorized hint

异常信息:errcode:48001 errmsg:api unauthorized hint

14640
来自专栏Pythonista

saltstack高效运维

saltstack是由thomas Hatch于2011年创建的一个开源项目,设计初衷是为了实现一个快速的远程执行系统。

26050
来自专栏李蔚蓬的专栏

Android Device Monitor--File Explorer 中的/data/data/..无法访问的问题

最近在看《第一行代码》(第二版)中关于数据存储方案的介绍。数据的状态分为两种:瞬时状态和持久状态,一般保存在内存中的数据随着活动的关闭,数据也就销毁了,如果我们...

53020
来自专栏Java工程师日常干货

分布式利器Zookeeper(二):分布式锁原生API操作ZK Watch机制 分布式锁思路

在《分布式利器Zookeeper(一)》中对ZK进行了初步的介绍以及搭建ZK集群环境,本篇博客将涉及的话题是:基于原生API方式操作ZK,Watch机制,分布式...

59930
来自专栏Android开发实战

HTTP1.0、HTTP1.1和HTTP2.0的区别

早在HTTP建立之初,主要就是为了将超文本标记语言(HTML)文档从Web服务器传送到客户端的浏览器。也是说对于前端来说,我们所写的HTML页面将要放在我们的w...

22030
来自专栏Crossin的编程教室

Python 实战(1):在网页上显示信息

上次简单介绍了 web.py。今天先来粗略解释下那个 hello world 页面的代码: import web 导入 web.py 模块。 urls = ( ...

36170
来自专栏北京马哥教育

操作系统能否支持百万连接?

下面来分别对这几个问题进行分析. 1. 操作系统能否支持百万连接? 对于绝大部分 Linux 操作系统, 默认情况下确实不支持 C1000K! 因为操作系统包含...

38150
来自专栏向治洪

Node.js原理

概述 Node.js是什么 Node 是一个服务器端 JavaScript 解释器,用于方便地搭建响应速度快、易于扩展的网络应用。Node.js 使用事件驱动,...

50760

扫码关注云+社区

领取腾讯云代金券