Shell+Curl网站健康状态检查脚本,抓出中国博客联盟失联站点

一开始搭建中国博客联盟,既有博友提醒我,做网址大全这类网站维护很麻烦,需要大量的精力去 Debug 一些已夭折的网站,更是拿松哥的博客大全举例。当然,我也是深以为然。前些时间,看到梦轩丽人的 boke123 网址大全的维护记录,好像是纯手工检查,张戈实在是佩服的五体投地,太有毅力了。

现在博客联盟也收录的博客也已破 200 了,全部来自自主提交,不管你是草博还是名博,张戈不会强买强卖。由于大部分都是建站不过半年的新站,半路放弃、提前太监的博客估计还是有的,于是我决定还是把站点维护这个工作做起来。

上午用 PHP 做了一个放到了vps试了下,发现检测速度一般,要等上半天(我写的 php 太蹩脚,就不献丑了)。

随后,我在 VPS 上写了一个多线程的网站状态检测脚本,直接从数据库 load 站点地址,然后用 curl 去检测返回码,发现速度非常好,基本 1 分钟内就能出结果

以下是脚本代码:

#!/bin/bash
#Author:ZhangGe
#Date:2014-08-21
#Desc:Check the site of ZGboke Alliance.
#取出网站数据
data=`/usr/bin/mysql  -uroot -p123456 -e "use zgboke;select web_url from dir_websites where web_status='3';" -N -B | awk '{print $1}'`
if [ -z "$data" ];then
        echo "Faild to connect database!"
        exit 1
fi
test -f result.log && rm -f result.log
function delay {
        sleep 3
}
tmp_fifofile=/tmp/$$.fifo
mkfifo  $tmp_fifofile
exec 6<>$tmp_fifofile
rm  $tmp_fifofile
#定义并发线程数,需根据vps配置进行调整。
thread=100
for  ((i=0 ;i<$thread;i++ ))
do
        echo
done>&6
#开始多线程循环检测
for url in $data
do
        read -u6
        {
        #curl抓取网站http状态码
        code=`curl -o /dev/null --retry 3 --retry-max-time 8 -s -w %{http_code} $url`
        echo "$code ---> $url">>result.log
        #判断子线程是否执行成功,并输出结果
        delay &&  {
                echo  "$code ---> $url"
        }  ||  {
                echo  "Check thread error!"
        }
        echo  >& 6
}&
done
#等待所有线程执行完毕
wait
exec 6>&-
#找出非200返回码的站点
echo List of exception website:
cat result.log | grep -v 200
exit 0

Ps:关于 shell 多线程脚本,后续文章会有一个详细说明,本文篇幅有限,就不多说了。

以下是中国博客联盟第一次成员站点存活检测的结果:

①、 非 200 返回码的异常站点:

②、脚本抓取的无法访问站点:

人工访问筛选结果:

wangyingxue.net(王英学博客):无法访问,经确认处于备案中  √

www.tao0102.com(长江博客):可以访问  √

blog.hack7d.com(Mcdull 技术博客):无法访问  ×

www.1992621.com(教师日记):可以访问  √

www.3miaotu.com(三秒兔):无法访问   ×

xiaoxiaomayi.com(小小蚂蚁博客):可以访问 √

www.awrui.com(李文栋博客):可以访问  √

Ps:脚本检测机制为:8s 内未连通的判定为异常,并重试 3 次,最后输出结果,若三次均异常则为 000。从图中和人工筛选可以看出,存在一些误杀,这个和 8s 的设定有一定关系。可以考虑设置为更长时间,得到更准确的结果,当然最终还是要结合人工确认的,所以也没多大关系。

后续,中国博客联盟会制订一个检查周期,最短每星期检查一次,最长一个月检查一次,争取让每个展示的站点都能正常访问。当然,我也会将每次检查的结果公布在中国博客联盟的站长资讯专栏,方便所有成员查看。

由于目前中国博客联盟部署在京东云擎,无法远程操控数据库,所以只好暂时用半自动的模式。等以后有时间搬到了 VPS 上后,将会将脚本改成全自动状态,当有网站联系多次检测为失联状态时,将会暂时将其设置为隐藏状态。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏landv

k3 Bos开发百问百答

21430
来自专栏FreeBuf

揭秘来自中国的数字货币“挖矿”军团 – Bondnet僵尸网络

最近,以色列安全公司GuardiCore发现了一个名为Bondnet的僵尸网络,该僵尸网络由数万台被控制的具备不同功率的服务器肉鸡组成。从目前的情况来看,幕后运...

278100
来自专栏玄魂工作室

RFID Hacking②:PM3入门指南

0x00 前言 Proxmark3是由Jonathan Westhues在做硕士论文中研究Mifare Classic时设计、开发的一款开源硬件,可以用于RF...

773110
来自专栏SAP最佳业务实践

SAP最佳业务实践:FI–总账(156)-5显示、对账

4.6 S_ALR_87012289显示简要凭证日记帐 简要凭证日记帐以表的形式为所选凭证显示凭证抬头和项目中最重要的数据。该清单可用作简要日记帐,并且与科目...

47170
来自专栏Seebug漏洞平台

Huawei HG532 系列路由器远程命令执行漏洞分析

作者:fenix@知道创宇404实验室 背 景 华为 HG532 系列路由器是一款为家庭和小型办公用户打造的高速无线路由器产品。 2017/11/27,Ch...

406100
来自专栏七夜安全博客

练手之经典病毒熊猫烧香分析(上)

23530
来自专栏FreeBuf

漫谈攻击链:从WebShell到域控的奇妙之旅

做渗透测试时遇到的域环境经常就是要么太复杂我们搞不定,要么太简单进去就拿到域控没啥意思,这些显然都无法满足我们实践已掌握知识的刚需。同时为了给我们道格安全技术小...

28850
来自专栏unlike

用paxos实现多副本日志系统--basic paxos部分

为了理解paxos协议,开始时看了好些资料,但始终没有理解透,直到我看了这个视频:http://v.youku.com/v_show/id_XNjgyODc3O...

1.1K80
来自专栏企鹅号快讯

细数那些在2017年被黑客滥用的系统管理工具和协议

“用指尖改变世界” ? 系统管理工具和合法协议原本是为了给系统管理员、信息安全专业人员、开发人员和程序员的日常工作提供灵活性和高效性而设计的。然而,当被黑客、网...

24260
来自专栏七夜安全博客

“永恒之蓝&漏洞的紧急应对--毕业生必看

17230

扫码关注云+社区

领取腾讯云代金券