三分钟使用 Python 处理 Nginx 日志

有什么

  • 有 14 台机器(意味着我们有14份日志)
  • 一台可以连到这 14 太机器的机器(有 Python 2.6)

要做什么

  • 获取 14 台机器上某时间段内的包含某特征的日志,再取出其中的特定内容

怎么做

1.使用 pssh 工具在 14 台机器执行 grep 命令获取包含某特征的日志 2.将 14 份日志作为标准输入传给 Python 脚本 3.Python 解析 stdin(标准输入)将日期转化为 Python 中的日期格式,判断之后将符合条件的特定内容取出并输出到 stdout (标准输出)

开始

一. 使用 pssh 工具在 14 台机器执行 grep 命令获取包含某特征的日志

# 安装 pssh 工具
pip install pssh

# 使用 pssh 工具
pssh -l root -h RS_bj_14.txt -o \
result "grep some_tag /data/logs/api.log"
  • -l 的意思是使用哪个用户执行
  • -h 是指定主机列表文件(换行隔开)
  • -o 是指定执行结果保存的文件夹
  • 最后是需要执行的命令

结果:

  • 红色执行失败的的那两台机器未包含符合我们筛选条件的日志

二. 将14份日志作为标准输入传给 Python 脚本

14份日志作为标准输入传给 Python 脚本:

cat result/* | ./ab-result-format.py 15 15 00 10 > result_we_want.log

Python 脚本

#!/usr/bin/python
import sys
import time
format = '%Y-%m-%dT%H:%M:%S+08:00'

h_start = int(sys.argv[1])
h_end = int(sys.argv[2])
m_start = int(sys.argv[3])
m_end = int(sys.argv[4])

stdin = sys.stdin.read().strip()
line_list = stdin.split('\n')

for item in line_list:
    infos = item.split()
    time_object = time.strptime(infos[0], format)   
    if h_start <= time_object.tm_hour <= h_end and m_start <= time_object.tm_min <= m_end:       
    print infos[8], infos[3], infos[4]

先交代一下我们分析的日志格式:

Nginx 日志格式(log_format)

为了方便查看,日志格式和日志中的空格都用换行代替

$time_iso8601
$remote_addr
$host
$request_time
$upstream_response_time
$request
$status
$upstream_addr
$session_id;

↓↓↓(实际的一条日志)

2017-12-19T00:03:57+08:00  
2003:da8:2004:1000:***:ffd2:f0:9b1c  
[2003:da8:2004:1000:****:ffaa:00f0:9b1c]  
0.454  
0.448  
POST  
/?Action=SubmitSyncTaskWithData 
HTTP/1.1  
200  
[2003:da8:2004:1000:****:dd8b:00b7:38ae]:8080 
f228d3941798f0d92c877a92a265f679

Python 脚本做了这么几件事:

  • 接受 4 个参数,分别是起始的小时和分钟,备用
  • 读取标准输入sys.stdin.read(),去掉头尾无用的字符strip(),循环处理每行日志
  • 拆分每行日志split()
  • 将时间字符串转为时间对象,根据 4 个参数判断小时和分钟(这里处理的比较粗糙,跨小时就没办法处理了,有兴趣的读者可以做的更精细一点)
  • 时间条件符合,打出需要的部分(这里我需要的是session_idrequest_timeupstream_response_time所以我们print infos[8], infos[3], infos[4]注:Python 的 print 其实就是标准输出

最后我们使用>将 Python 脚本的标准输出重定向到result_we_want.log文件

彩蛋,结果有了,发给领导? ?

原文发布于微信公众号 - 随心DevOps(heart-devops)

原文发表时间:2018-01-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏散尽浮华

linux下截取给定路径中的目录部分

在日常运维中,有时会要求截取一个路径中的目录部分。 截取目录的方法,有以下两种: 1)dirname命令(最常用的方法):用于取给定路径的目录部分。很少直接在s...

1755
来自专栏转载gongluck的CSDN博客

跟我一起写Makefile

makefile 介绍 make命令执行时,需要一个 makefile 文件,以告诉make命令如何去编译和链接程序。 首先,我们用一个示例来说明makefil...

3567
来自专栏Golang语言社区

Golang 命令

go buildgo build 命令用于编译我们指定的源码文件或代码包以及它们的依赖包。go build [-o output] [-i] [build fl...

40114
来自专栏菩提树下的杨过

maven常用插件: 打包源码 / 跳过测试 / 单独打包依赖项

一、指定编译文件的编码 maven-compile-plugin 1 <plugin> 2 <gr...

1976
来自专栏技术博文

php dirname(__FILE__) 获取当前文件的绝对路径

比如当前文件是放在(d:\www\)下,文件名是test.php <?php echo __FILE__ ; // 取得当前文件的绝对地址,结果:D:\www...

3255
来自专栏linux运维学习

linux学习第十九篇:压缩介绍,gzip,bzip2,xz压缩工具

file命令可查看文件是压缩文件或者test文件等,如file 1.txt 可查看1.txt是什么类型的文件 linux压缩打包介绍 在windows下我们接...

1917
来自专栏电光石火

运行jar包找不到主类

在正确编译好java程序之后,打包,然后在命令行输入java -jar ,却弹出找不到或无法加载主类。 一检查,我的path环境变量都是对的呀?jav...

2509
来自专栏机器学习实践二三事

ubuntu14.04+caffe2+OpenCV3.0安装的一些问题

好久不用Caffe了,今天要转换个caffemodel到tensorflow,所以需要caffe的环境,原先预备pull个Docker镜像,最后发现死活下载不下...

2548
来自专栏北京马哥教育

Linux 中命令链接操作符,让你的代码更简洁!

Linux命令中链接的意思是,通过操作符的行为将几个命令组合执行。Linux中的链接命令,有些像你在shell中写短小的shell脚本,并直接在终端中执行。链接...

602
来自专栏python3

python脚本练习

题目:   在目录xx下,有xx个普通文件,有的文件有后缀名*.txt,有的则没有后缀名,写一个脚本将xx目录下所有文件没有后缀名的文件都重命名为*.txt结尾

841

扫码关注云+社区