监控的艺术

监控的艺术

目录

  • 1. 背景
  • 2. 概述
  • 3. 怎样监控
    • 3.1. 卫星监测
    • 3.2. 逐级诊断
    • 3.3. 模拟人工
    • 3.4. 数据分析
    • 3.5. 监控与开发
  • 4. 总结

1. 背景

每个企业都意识到监控工作的重要性,但80%企业的监控工作仍然处在监控的初级阶段。

什么事初级阶段呢?

  1. 被动监控,故障发生运维人员永远不是第一个发现故障的人
  2. 监控IP地址与TCP端口,很多时候HTTP 80端口正常接受请求,但WEB服务器不能正常工作。
  3. 人肉监控(人肉运维),采用人海战术,桌面摆放很多显示器,甚至投影仪,要求监控者盯着各种仪表板界面,制定各种工作流程以及KPI考核监控人员。
  4. 人肉测试,要求监控人员每间隔几分钟人工操作一次,以确认系统正常工作,例如(没15分钟登陆一次,下一笔顶单,做一次支付等等)。
  5. 万能的重启,定其重启所有的服务器。

什么事中级阶段呢?

  1. 报警:手机短信更靠谱,因为手机随身携带(邮件不算,邮件到达速度慢,各种因素不稳定)
  2. 监控服务:探测服务的可用性,而不是仅仅监控端口,注意我是指私有协议的监控(HTTP,SMTP,FTP,MySQL 不算在内)
  3. 故障分析:通过日志与调试工具分析软件BUG,指导开发人员改善软件质量,使其故障不会再次发生,达到不用restart重启方式解决故障
  4. 半自动化测试

什么事高级阶段呢? 我认为高级阶段是监控与灾备系统打通融合一体。除此之外监控与开发密切相关,在开发阶段需要为监控数据采集做铺垫,每开发一个新功能就要想到未来这个功能是否需要监控,怎样监控。数据前期采集与数据挖掘非常重要,监控不仅能做软件与硬件的性能分析,还能提供决策支持,这里又涉及了BI。

除了监控,另一个息息相关的是自动故障转移,有兴趣可以看看我的其他文章 http://netkiller.github.io/journal/

2. 概述

你在百度上搜索监控多半是一些开源或商业软件的安装配置指南。这些文章中会告诉你怎样监控CPU、内存、硬盘空间以及网络IP地址与端口号码。

开源软件无非是 Nagios, Cacti, Mrtg, Zibbix ..... 这些软件在我的电子出书《Netkiller Monitoring 手札》中都有详细说明安装与配置方法。

商业软件也有很多如 SolarWinds, Whit's Up,PRTG ......

所有的服务器,网络设备,监控你都做了,那么按照我上面的监控分级,你处于监控的那个阶段?

3. 怎样监控

监控都有哪些手段跟方式呢?

3.1. 卫星监测

通常是通过IP地址访问远程主机,实施监控,常用方法是SNMP,SSH,以及各种Agent(代理),方式是请求然后接收返回结果,通过结果判断主机状态。

      Monitor Server
            |
-------------------------------
  |         |           |
[Web]    [Mail]    [Database]			

以监控服务器为中心,星型散射连接其他监控节点,没有什么优点,缺点是Web跟Mail节点的通信没有监控

3.2. 逐级诊断

这个词是我想出来的,不知道是否确切,一级一级的向下探测,寻找故障点

      Monitor Server
              |
-------------------------------      
  |           |             |
  V           V             V
  |           |             |
[Web] ---> [Cache] ---> [Database]
  \                         ^
   `------------------------|			

首先监控服务器跟星型拓扑一样监控,再让Web节点去访问Cache节点然后返回监控结果,以此类推,让Cache节点访问Database, 让Web访问Database节点。

将所有业务逻辑都逐一模拟一次,任何一个环节出现问题,立即发出警告。

3.3. 模拟人工

这里主要监控服务是否可用,可以检查软件的工作情况,涉及测试环节。

通过自动化测试工具辅助监控,例如模拟鼠标点击,键盘输入,可以监控图形界面程序与网页程序。

Windows 监控可以通过 Windows Automation API实现,通过程序控制,能够模拟人工操作软件,实现操作匹配返回结果实现自动化监控

Web页面监控的方案就太多了,比较经典的是Webdriver衍生出的各种工具Selenium - Web Browser Automation最为出名。我通过这个工具模拟用户操作,例如用户注册,登陆,发帖,下单等等,然后匹配返回结果实现自动化监控与报警

3.4. 数据分析

通过数据分析,将故障消灭在故障发生前。举一个例子,开发人员忘记设置redis 时间,虽然程序一直完好工作,但redis内存不断增长,总一天会出现故障。

我们通过采集redis状态信息,分析一段时间内数据变化发现了这个问题。

3.5. 监控与开发

谈到监控很多人认为这是运维的事情,实则不然,不懂运维的测试不是好开发。

开发过程中需要考虑到监控,例如Nginx的status模块, MySQL的show status命令, Redis的info命令,都是为监控预留的。那么你开发的程序是否考虑到了监控这块呢?

你可以通过日志形式或者管道,再或者Socket将程序的运行状态提供给监控采集程序。

4. 总结

好的监控的能让你对系统了如指掌,做到心里有数。有数据才好说话。

原文发布于微信公众号 - Netkiller(netkiller-ebook)

原文发表时间:2016-11-22

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

关于监视容器我们了解的5件事

本文将介绍如何构建一个管理上万容器的可扩展的,高可靠的监控系统。本文是基于 Sysdig 容器监控工具的构建经历编写,如果您决定开发自己的工具,以下的设计决策可...

1739
来自专栏腾讯云容器服务团队的专栏

华尔街见闻:基于腾讯云容器服务的微服务架构实践

本文介绍了华尔街见闻通过重构和服务容器的重新部署,实践微服务架构的情况。经过几个月的开发测试,我们不仅完成了线上服务从PHP到Golang的转型,更在服务的稳定...

1.1K0
来自专栏云计算

容器服务:来自外部的你好!

容器服务正在改变应用程序的部署和管理方式。但它们究竟是什么呢?它们与其他交付平台的方式相比如何呢?

16710
来自专栏DevOps时代的专栏

K8S 1.10 | 技术角度解读 10 大模块更新

1515
来自专栏FreeBuf

本月第二次,美国陆军“智库”最高机密文件公开在AWS S3上

还记得一周之前 FB 曾经报道过美国国防部意外泄漏全球18亿用户社交信息的新闻吗? 一周之后,后续泄漏信息仍在继续,美国陆军智库 INSCOM 似乎也遭遇了“意...

2095
来自专栏Java架构沉思录

如何优雅地实施持续交付部署

通过这种方法,我们指定了在更新剩余百分比的同时保持在服务状态的应用程序中的最小实例数,因此可以部署到尽可能多的目标。重复此过程,直到所有服务器都更新为新版本。

671
来自专栏ThoughtWorks

为什么优秀的程序员喜欢命令行?|洞见

优秀的程序员 要给“优秀的程序员”下一个明确的定义无疑是一件非常困难的事情。擅长抽象思维、动手能力强、追求效率、喜欢自动化、愿意持续学习、对代码质量有很高的追求...

2715
来自专栏安智客

Google Keybox功能与TEE关系介绍

昨天介绍了Keystore功能,今天来普及一下Keybox。这个也与可信执行环境TEE有着密切的关系! Keybox就是Android的密钥箱功能,用于解密受D...

49410
来自专栏Forrest随想录

XXOps实践:持续发布和部署

上周分享了一篇文章《有了CMDB,为什么还要应用配置管理》,主要讲了基础层面应该怎么做,那基础的东西做好了,如果用不起来,就没有价值,那我们今天就来看看在此基础...

964
来自专栏微信小开发

微信小程序是什么,怎么用?

什么是微信小程序 小程序种需安装即使用手机「应用」需要扫描二维码或搜搜能立即使用解决手机内存够问题 不同的小程序能帮实现同功能例买电影票、餐厅排号、餐馆点菜、查...

1929

扫码关注云+社区