2015百度一道面试题引发的思考(shell脚本和网络)

原文    http://blog.csdn.net/chhuach2005/article/details/40044863

前言

        百度2面出了这样一题(前篇博文求职之路中有提到),给你一个log文件,文件中有3列,分别为ip,访问时间, 和访问内容。你用shell脚本找出访问频率最高的10个IP。

        因为平时用shell脚本也就是配置些文件,自动化部署一些软件,突然遇到这个问题。还真不知道怎么弄呢,反正知道要排序,当时就没答出来。回来在网上找了下,网上有很多类似的解答。下面给出几种解答方式,一一道来啊。

一、log格式分析

        就利用ubuntu httpserver 安装配置(apache+mysql+php) 中部署的httpsever产生的log文件,目录为:/var/log/apache2/access.log .log格式如图1所示

图1 httpseverlog格式

二、解答

解答一

shell脚本:cat   /var/log/apache2/access.log | awk -F -  '{print $1}' | sort | uniq -c | sort -rn

或者直接:awk -F -  '{print $1}' /var/log/apache2/access.log | sort | uniq -c | sort -rn

awk -F -  '{print $1}'  是一行中以-为分隔符打印第一列;

sort  排序(默认是升序,降序用sort  -r);

uniq -c 计数并去重(仅去重用uniq即可)

sort -rn 以计数降序排序

结果如图2所示第一列为访问次数 第二列是ip;

图2  找出访问量最大的几个IP

解答二

shell 脚本:cut  -d- -f 1 /var/log/apache2/access.log |sort| uniq -c | sort -rn | head -10

cut -d- -f 1 /var/log/apache2/access.log  其中-d-表示以 - 为分隔符; -f 1表示打印第一列

后面的和解答1都一样 无需解释,结果和解答一完全一样。

三、补充

下面再补充一点啊

1)列出某一ip访问了哪些页面

grep ^223.3.52.172  /var/log/apache2/access.log | awk '{print $1,$7}' | head -30

说明^223.3.52.172 表示以该ip开始的一行,后面的上面都解释过了

结果如图3所示

图3  某一ip访问过的页面

某一页面被访问的次数:grep "/file1"  /var/log/apache2/access.log  | wc -l

ip访问总量 :awk -F -  '{print $1}'  /var/log/apache2/access.log | wc -l 

参考 http://www.jb51.net/article/53954.htm学习并列举一下哈

 1、查看当天有多少个IP访问:
 awk '{print $1}' log_file|sort|uniq|wc -l
 2、查看某一个页面被访问的次数;
 grep "/index.php" log_file | wc -l
 3、查看每一个IP访问了多少个页面:
 awk '{++S[$1]} END {for (a in S) print a,S[a]}' log_file
 4、将每个IP访问的页面数进行从小到大排序:
 awk '{++S[$1]} END {for (a in S) print S[a],a}' log_file | sort -n
 5、查看某一个IP访问了哪些页面:
 grep ^111.111.111.111 log_file| awk '{print $1,$7}'
 6、去掉搜索引擎统计当天的页面:
 awk '{print $12,$1}' log_file | grep ^\"Mozilla | awk '{print$2}' |sort | uniq | wc -l
 7、查看2009年6月21日14时这一个小时内有多少IP访问:
 awk '{print $4,$1}' log_file | grep 21/Jun/2009:14 | awk '{print$2}'| sort | uniq | wc -l

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Python

Flask快速入门,知识整理

一、Flask介绍(轻量级的框架,非常快速的就能把程序搭建起来)   Flask是一个基于Python开发并且依赖jinja2模板和Werkzeug WSGI服...

4559
来自专栏Seebug漏洞平台

D-Link DIR-605L 拒绝服务错误报告 (CVE-2017-9675)

原文:http://hypercrux.com/bug-report/2017/06/19/DIR605L-DoS-BugReport/ 译者:Serene ...

3896
来自专栏前端那些事

Express4.x API (三):Response (译)

Express4.x API 译文 系列文章 技术库更迭较快,很难使译文和官方的API保持同步,更何况更多的大神看英文和中文一样的流畅,不会花时间去翻译--,所...

17710
来自专栏容器云生态

运维工作常用的shell命令

#seq 1 100    //1到100排序 #seq 1 3 100   //1到100排序,间隔为3 shell中的变量设置规则: 1.变量与变量的内容用...

2276
来自专栏智能大石头

简易远程消息交换协议SRMP

经过十多年实战经验积累以及多方共同讨论,新生命团队(https://github.com/newlifex)制订了一种简单而又具有较好扩展性的RPC(Remot...

976
来自专栏JetpropelledSnake

Python面试题之Python面试题汇总

(1)与java相比:在很多方面,Python比Java要简单,比如java中所有变量必须声明才能使用,而Python不需要声明,用少量的代码构建出很多功能;...

5.6K4
来自专栏码农阿宇

Asp.net Core 2.1新功能Generic Host(通用主机)深度学习

这是在Asp.Net Core 2.1加入了一种新的Host,现在2.1版本的Asp.Net Core中,有了两种可用的Host。

1682
来自专栏云计算教程系列

如何在CVM上同步自建数据库的数据?

Transporter是一种用于在不同数据存储之间移动数据的开源工具。开发人员经常为诸如跨数据库移动数据,将数据从文件移动到数据库或反之亦然等任务编写一次性脚本...

21612
来自专栏地方网络工作室的专栏

Python3 初学实践案例(6)终极 CLI 密码生成程序实现

Python3 初学实践案例(6)终极 CLI 密码生成程序实现 在前面一章的学习中,我已经完成了一个一定扔出 6 的生成密码算法实现。但是只能将生成的密码输出...

2038
来自专栏有趣的django

Django rest framework源码分析(1)----认证

一、基础 1.1.安装 两种方式: github pip直接安装 pip install django-rest-framework 1.2.需要先了解的一...

64711

扫码关注云+社区

领取腾讯云代金券