专栏首页ytkahshell日志分析进阶篇

shell日志分析进阶篇

  前面我们说了shell分析日志常用指令,现在我们随ytkah一起看看shell日志分析进阶篇,假设日志文件为ytkah.log

//统计不重复抓取数量

cat ytkah.log | awk '{print $4}'|sort|uniq|wc -l

//统计所有状态码数量

awk '{print $10}' ytkah.log |sort|uniq -c

//统计某个目录抓取次数

grep "/shop" ytkah.log | awk '{print $4}' |sort |wc –l

//统计各个目录出现404响应码次数

cat ytkah.log |awk 'BEGIN{FS="/| "} {if($(NF-2)==404){print $5,$(NF-2)}}' |sort|uniq -c | sort -r

//统计404页面的抓取数量

awk '{if($10=="404"){print $0}}' ytkah.log|sort|uniq|wc -l

//统计每个ip下对应URL的抓取次数

awk '{print $6,$4}' ytkah.log |sort|uniq –c

//提取百度蜘蛛访问数量前10的网站目录及访问次数,并按降序排列

awk '{print $4}' ytkah.log |grep -P "[^/(a-zA-Z)|^/(a-zA-Z)/]"|awk -F"/" '{print $2}'|sort|uniq -c|sort -r|head -10

//提取某个目录百度蛛蛛访问次数

cat ytkah.log | grep "/shop/"| wc –l
cat ytkah.log |awk '{print $4}' |grep "/shop/" |wc –l
cat ytkah.log |awk '{print $4} |awk –F"/" '{print $2}'|grep "shop"|wc -l

//统计首页抓取的次数占总体抓取次数比率

cat ytkah.log |awk '{print $4}'|awk '{if($0=="/"){n=n+1}}END{print n/NR*100"%"}'

//统计404响应码占总响应码比率

cat ytkah.log |awk '{print $10}'|awk '{if($0=="404"){n=n+1}}END{print n/NR*100"%"}'

//计算百度抓取总时间与总抓取次数

cat ytkah.log|awk '{FS=" "} {print $2}'|awk -F":" '{print $2}'| sort |uniq -c|awk 'BEGIN{print "小时","次数"} {print $2,$1}'|awk '{for(n=0;n<5;n++){b=$2}} {a+=b} {print $0}END{print "总数"b,a}'

//计算百度抓取总字节数

cat ytkah.log |awk '{print $11}'|awk 'BEGIN{total=0}{total+=$1}END{print total}'

//计算平均每次每个网页抓取字节数(小数点后面大于5进1)

cat ytkah.log |awk '{print $11}'|awk 'BEGIN{total=0}{total+=$1}END{print total/NR}'

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 变量 $cfg['TempDir'] (./tmp/)无法访问。

    今天一位客户说他的wordpress网站有问题,加载非常慢,让ytkah诊断一下,一看前端的sql查询数几百条,停用了一些不用的插件,顺带把数据表也删除。进入p...

    ytkah
  • shell分析日志常用指令合集

      数据分析对于网站运营人员是个非常重要的技能,日志分析是其中的一个。日志分析可以用专门的工具进行分析,也可以用原生的shell脚本执行,下面就随ytkah看看...

    ytkah
  • marquee一行代码实现滚动跑马灯效果无需js

      最近ytkah决定拓展一下业务,贴补一些家用,~(@^_^@)~,将以前做的网站建设案例展现出来,有这方面需求的朋友可以扫一下二维码加我哈,或者推荐朋友给我...

    ytkah
  • SAP CRM Interactive Report界面订单数量的计算逻辑分析

    I tried to implement this small and simple feature first:

    Jerry Wang
  • 运维必备技能 WEB 日志分析

    文章节选自《Netkiller Monitoring 手札》 20.2. Web 20.2.1. Apache Log 1、查看当天有多少个IP访问: awk ...

    netkiller old
  • 「第一部:容器和Docker」(4) Docker容器、镜像和注册表

    使用Docker时,开发人员会创建一个应用程序或服务,并将其及其依赖项打包到容器映像中。映像是应用程序或服务及其配置和依赖项的静态表示。

    首席架构师智库
  • whether logo retrieval will block the application

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

    Jerry Wang
  • Apache默认编码修改

    但是PHP文件一运行就闷逼了,显示出来的文字都是乱码,但是源码那么多,一个个改是不可能了。

    繁花云
  • leetcode-645-Set Mismatch

    chenjx85
  • 航空公司客户价值分析

    项目目标 借助航空公司客户数据,对客户进行分类 对不同的客户类别进行特征分析,比较不同类别客户的客户价值 对不同价值的客户类别提供个性化服务,制定相应的营销策略...

    林清猫耳

扫码关注云+社区

领取腾讯云代金券