hostmonitor对异常用户会话的监控

问题:日盘交易时间段,程序化交易客户端登录后,获取不到行情,并且出现客户端反复重连的情况,报错如下图:

分析

从截图可知客户端与服务端之间的会话通道异常,socket异常可能是网络抖动、客户端程序异常、服务端异常等造成的。
与客户沟通得知,该客户通讯链路正常,登录连接测试正常,本交易日夜盘登录、交易正常,客户端登录环境没有变化,同时确认服务端网络正常,暂时排除前两个可能性。目前交易系统共有7组前置服务,每组各1个交易前置,1个行情前置,对外地址映射时,IP地址和前置服务一一对应,客户端登录时自由选择前置服务组进行登录报单,客户登录的行情前置为front7、交易前置为front1。查看服务端监控,前置服务状态正常,交易报盘、行情报盘服务到交易所的连接状态正常,其他客户交易正常,说明交易系统到交易所的通道是正常的。
使用交易员客户端登录front7对应的地址组,查看交易所行情,发现状态异常,行情没有变化,登录front7所在服务器,检查客户端与前置服务间的会话,发现有多个行情socket连接处于timewait或syn_sent状态,这些连接大都对应同一IP,经确认,是该客户的IP,认定front7可能存在服务“假死”的情况,重启该行情服务,到该前置的连接恢复正常。

问题引申

和客服人员确认,尚未收到此种问题的反馈,说明碰到此种情况也属小概率事件,但问题的发生也说明监控上需要进一步完善。
目前使用的是一款开源的监控软件-hostmonitor,监控上的维护流程见下一步。

监控完善

1.trade@front,创建/home/trade/monitor目录 2.上传脚本至/home/trade/shell下,

checkfrontStatus.sh
-----------------------------------------------------------------------------------------------------------
#!/bin/bash
#author by wcy
#Date:20181129,用于检查客户端到交易系统前置的连接是否异常,输出检查结果
DATE=$(date "+%Y%m%d")
netstat -an |grep 41213|awk  '$6!~/ESTABLISHED/{print $6}' |wc -l >/home/trade/monitor/mdftPlayDead$DATE.txt
netstat -an |grep 41213|awk  '$6!~/ESTABLISHED/{print $6}' |wc -l>/home/trade/monitor/mdftPlayDie$DATE.txt
netstat -an |grep 41205|awk  '$6!~/ESTABLISHED/{print $6}' |wc -l >/home/trade/monitor/ftPlayDead$DATE.txt
netstat -an |grep 41205|awk  '$6!~/ESTABLISHED/{print $6}' |wc -l>/home/trade/monitor/ftPlayDie$DATE.txt

------------------------------------------------------------------------------------------------------------

3.计划任务:交易时间段,8:00-15:00,20:00-23:59,00-2:00之间;每分钟执行一次检查脚本。

------------------------------------------------------------------------------------------------------------
*/1 8-15 * * 1-5    cd /home/trade/asptools;./checkfrontStatus.sh
*/1 20-23 * * 1-5    cd /home/trade/asptools;./checkfrontStatus.sh
00-59/1 23 * * 1-5    cd /home/trade/asptools;./checkfrontStatus.sh
*/1 0-2 * * 2-6     cd /home/trade/asptools;./checkfrontStatus.sh
------------------------------------------------------------------------------------------------------------

4.hostmonitor上,根据实际情况,告警阀值行情50,交易100,当扫描到客户端连接异常超过告警阈值时,认定前置服务出现假死,给出告警,并输出异常连接的数量。

行情前置监控脚本:
checkMdfrontSocket
------------------------------------------------------------------------------------------------------------
DATE=$(date "+%Y%m%d")
ProName=$1
Con=$(cat /home/trade/monitor/mdftPlayDead$DATE.txt)
if [[ $Con -ge $2 ]]
then
  echo "ScriptRes:Bad:$Con socket disconnect"
else
  echo "ScriptRes:OK:$Con"
fi
------------------------------------------------------------------------------------------------------------

交易前置监控脚本:
checkfrontSocket
------------------------------------------------------------------------------------------------------------
DATE=$(date "+%Y%m%d")
ProName=$1
Con=$(cat /home/trade/monitor/ftPlayDead$DATE.txt)
if [[ $Con -ge $2 ]]
then
  echo "ScriptRes:Bad:$Con socket disconnect"
else
  echo "ScriptRes:OK:$Con"
fi
-------------------------------------------------------------------------------------------------------------

原文发布于微信公众号 - 陌与尘埃(grq100296)

原文发表时间:2018-12-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

扫码关注云+社区

领取腾讯云代金券