前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >awk一个linux系统的中的好教官

awk一个linux系统的中的好教官

作者头像
程序那些事儿
发布2023-03-07 13:24:28
7740
发布2023-03-07 13:24:28
举报
文章被收录于专栏:程序那些事儿

awk是一个文本处理程序,但是我更喜欢叫它教官,因为这样更形象。

我喜欢把各种文本的内容称为士兵,而教官负责管理培训它们。

日志统计

开发web的人员知道,我们经常需要查看nginx的服务器来统计来访者的记录。而awk教官可以很方便帮我们处理好存放在日志中的士兵,可以帮助我们选出最高的士兵,可以帮助我们选出经常出操的士兵,可以帮我们选出哪些士兵经常在一起。

看下面的一个需求:我们需要看看经常访问网站的有哪些ip,并且把它们的访问次数统计出来。初看这个问题似乎很复杂,不过不要担心,有问题,找教官,我们只要把我们的要求告诉教官,它就会告诉我们把结果,这很像sql语句,我们只要写出要获取的数据就行,至于怎么获取,全部交给数据库自己处理。

我们的awk语句如下:

代码语言:javascript
复制
 awk '{sum[$1]++}END{for (ip in sum) print ip,sum[ip]}' access.log|sort -rn -k 2|head

结果如下

代码语言:javascript
复制
66.98.123.241 4849
144.34.223.61 730
101.133.226.32 330
23.83.246.193 279
101.133.140.228 188
101.133.147.20 174
101.133.224.74 158
101.133.224.22 151
59.109.210.199 132
47.240.89.111 63

我们简单分析下我们写的语句

  • awk这个不用说,就是我们向教官打招呼
  • '{sum[$1]++}END{for (ip in sum) print ip,sum[ip]}'这个单引号包含的就是我们向教官询问的问题,其中第一个{}表示我们要循环每一行,然后把ip保存到sum数组中,第二个{}表示我们要把相同的ip求和统计出来,其中的END表示最后执行,当然在第一个{}之前我们也可以有一个BEGIN。
  • access.log是我们要统计的文件,就是告诉教官要统计那个营的士兵
  • sort是linux的排序命令,就是将士兵排序,其中 -rn表示按照身高,降序排列,因为排序还可能按照体重等排序。
  • k 表示我们需要对那列进行排序,因为前面统计的是ip,count,而我们需要按照count进行排序,所以这里写2
  • head 是linux的头部预览命令,一个营有很多士兵,我们只需要选出前面的几个士兵就可以了,默认它是选出前10个士兵,当然我们也可以使用 head -n 5选择前5个士兵。

工作流程

代码语言:javascript
复制
awk 'BEGIN{ commands } pattern{ commands } END{ commands }'

1、通过关键字 BEGIN 执行 BEGIN 块的内容,即 BEGIN 后花括号 {} 的内容。

2、完成 BEGIN 块的执行,开始执行body块。

3、读入有 \n 换行符分割的记录。

4、将记录按指定的域分隔符划分域,填充域,0 则表示所有域(即一行内容),1 表示第一个域,

5、依次执行各 BODY 块,pattern 部分匹配该行内容成功后,才会执行 awk-commands 的内容。

6、循环读取并执行各行直到文件结束,完成body块执行。

7、开始 END 块执行,END 块可以输出最终结果。

强大的功能

从上面的例子我们也能看出来,awk可以向一般语言一样,也有自己的数据结构,也有自己的条件和循环判断,而且它也可以自己定义函数,可以说我们编程常用的功能,它都有提供。

因此,当我们需要统计一些文本中的内容的时候,我们一定不要忘记去找教官awk,它可能不是最好的教官,但是它一定值得你去选择它。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-05-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 程序那些事儿 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 日志统计
  • 工作流程
  • 强大的功能
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档