Linux操作系统DNS解析(nameserver)监控脚本

一、起因

昨天,开发组兄弟发现 resin 日志出现不少支付宝业务报错信息,用户用支付宝购买了产品,钱到账后公司系统却未返回支付成功状态!

这还得了?用户明明支付成功了,结果却显示未到账!!!必须赶紧解决,用户投诉是小,用户流失就大了!仔细分析日志后,发现是解析支付宝接口域名(mapi.alipay.com)时出现延时,导致获取不到支付成功的返回信息!

检查发现 OpenSUSE 的 nameserver 居然是谷歌的公用 DNS:8.8.8.8!!!尼玛,不出问题才怪呢!

二、解决

虽然阿里新推出了公用 DNS:223.5.5.5,223.6.6.6,但这是内部解析外部域名,所以就近的 nameserver 是最快的,于是赶紧给换成了公司专用的 nameserver,问题立马解决了!

然后批量替换了 200 多台服务器中的 nameserver 为 8.8.8.8 的问题系统,以绝后患。

三、绸缪

仔细考虑后,决定加上 nameserver 的相关监控:

①、编写脚本:

vim mon_nameserver

#!/bin/bash
#Author: ZhangGe
#Date & Time: 2014-06-24 12:22:40
#Description: Name server monitoring.
#目标域名
site=$1
site=${site:-www.baidu.com}
#解析延时阈值
expect=$2
expect=${expect:-0.05}
#获取内网IP作为标示
InterIp()
{
        ifconfigIP=`/sbin/ifconfig -a|awk '/10\./||/10\./||/11\./'|head -n 1|awk '{print $2}'|awk -F: '{print $2}'`
        ifconfigIP=`echo $ifconfigIP|grep '[0-9]\{1,3\}\.[0-9]\{1,3\}\.[0-9]\{1,3\}\.[0-9]\{1,3\}'`
}
InterIp
#获取域名解析时间
delay=`curl -o /dev/null -s -w %{time_namelookup} $site`
#比较与报警(sendmesg是公用消息发送脚本)
if [ $? -eq 0 ];then
        if [ `expr $delay \> $expect` == 1 ];
        then
           /usr/local/t_mon/sendmesg.sh zhangge "$ifconfigIP NS Delay $delay s"
        fi
else
           /usr/local/t_mon/sendmesg.sh zhagnge "$ifconfigIP Name Server Error"
fi
exit 0

②、加入任务计划

crontab -e

#NameServer Check
*/5 * * * * /usr/local/t_mon/mon_nameserver.sh mapi.alipay.com 0.3

每五分钟执行一次,检查 mapi.alipay.com 的解析时长,若解析失败或时间大于 0.3s 则发送报警信息到监控 APP 上。 下面是将延时阈值设置为 0.001s 的测试报警截图:

四、附加

这个脚本只是用于特定情况,并非常用功能,仅供参考!脚本核心功能使用的是 curl 获取域名解析时长,下面简单的补充一下 curl 部分参数:

  • time_namelookup:DNS 解析域名的时间
  • time_commect:client 和 server 端建立 TCP 连接的时间
  • time_starttransfer:从 client 发出请求;到 web 的 server 响应第一个字节的时间
  • time_total:client 发出请求;到 web 的 server 发送会所有的相应数据的时间
  • speed_download:下周速度  单位 byte/s

更多 curl 详细说明请 man 或自行搜索。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏后端技术探索

分布式系统一致性问题解决实战

商户提交表单数据至旺铺(deco项目,以下皆称为deco),deco需要接入poi系统进行装修内容的人工审核,详细流程见下图。

1172
来自专栏marsggbo

coursera 视频总是缓冲或者无法观看的解决办法

注意!!!该方法针对Windows用户,亲测有效。 1.用管理员权限记事本打开host文件 2.将如下内容复制到文件末尾 52.84.246.90 ...

2275
来自专栏老安的博客

docker 容积硬盘扩容小坑一个

1363
来自专栏彭湖湾的编程世界

【npm】利用npm安装/删除/发布/更新/撤销发布包

什么是npmnpm是javascript的包管理工具,是前端模块化下的一个标志性产物 简单地地说,就是通过npm下载模块,复用已有的代码,提高工作效率 1.从社...

5588
来自专栏java相关

java中缓存分类总结

在平时的开发中会经常用到缓存,比如locache、redis等,但一直没有对缓存有过比较全面的总结。下面从什么是缓存、为什么使用缓存、缓存的分类以及对每种缓存的...

2802
来自专栏hadoop学习笔记

超详细hadoop系统安装教程(附步骤)

在前几篇的文章中分别就虚拟系统安装、LINUX系统安装以及hadoop运行服务器的设置等内容写了详细的操作教程,本篇分享的是hadoop的下载安装步骤。

1573
来自专栏猿天地

内网穿透工具-ittun

相信大家在工作和学习都避免不了快速外网调试。比如微信支付、支付宝支付,消息推送,短信发送,邮件发送等等。都需外网能访问你本地服务器进行调试。 软件下载地址:h...

5548
来自专栏DeveWork

DW Mobile Switcher:移动设备识别切换主题插件

DW Mobile Switcher 这款移动设备识别切换主题插件(就是说如果检测到是移动设备就会切换设置的另一款“移动主题”)是为了接下来要发售的两款移动主题...

1985
来自专栏我是攻城师

ElasticSearch里面的路由功能介绍

3107
来自专栏数值分析与有限元编程

Fortran知识 | DLL缺失

编写代码的目的是计算得到结果。或者是发布一个程序(exe或其他)给别人,甚至是作为商业软件出售给别人使用。有时编译后的exe程序再复制到其他计算机上独立运行会出...

2225

扫码关注云+社区

领取腾讯云代金券