用户视角的监控,再也不用凌晨起床处理线上告警了

上一篇介绍多维度立体化监控,提到系统需要监控的八个维度:

  1. http接口监控
  2. log关键字监控
  3. 操作系统,进程,端口
  4. http状态码
  5. 服务存活性
  6. 接口处理时间
  7. 用户层面监控
  8. RPC接口监控

其中1和2两项《通用+可扩展http监控平台/框架》和《通用+可扩展log监控平台/框架》分别进行了细化说明,3到6这四项上一篇《多维度立体化监控,才是真的监控》进行了简要说明,今天和大家聊聊第7项,用户视角的监控

一、为什么要进行用户视角的监控

什么是用户视角的监控?

把系统内部当作黑盒:

  • 用户怎么访问系统,用户视角的监控就怎么访问系统
  • 用户调用哪些接口,用户视角的监控就调用哪些接口

此类监控的粒度较粗,并不直接监控web-server, service, db, cache…

为什么要有用户视角的监控,非用户视角进行的监控有什么不足?

如上图所示,立体化监控的八大维度,除了用户视角的监控,另外七大维度,不管是机器监控,日志监控,接口监控,都是系统内部发起的,当系统外部与系统之间出现问题的时候,例如“某个省的光纤被挖断”或者“某条网络链路出现丢包”或者“某个地域供应商往页面里又插入小广告了”,是检测不出来的,只有站在用户视角的监控,才能检测出类似的问题。

凌晨三点,告警短信响了,到底要不要起床检查系统?

这个问题,是和技术人密切相关的问题。如何系统设计的合理,不管是任何一台 nginx, tomcat, service, cache, db 挂了,由于系统的高可用架构设计,理论上都不应该影响一线用户的访问。

于是乎,只要用户视角的监控不告警,是可以第二天再起床处理其他监控的告警的。

画外音:这帮不靠谱的架构师,每次都说能高可用,任何一个地方挂了,用户就受影响了。

如何进行用户视角的监控?

主要有三类方法:

  • 用户所在的地方,租机房布点监控
  • 端(APP/browser)上布点监控
  • 使用第三方监控平台

二、租机房布点监控

如上图所示,在用户所在城市租赁机房(只需要一台服务器),部署监控小程序,对系统进行外网访问监控,就能够检测网络链路,路由延时。

缺点:额,各个城市租赁一台服务器,成本有点高(不止费用,管理成本也高)。

三、端上布点监控

如上图所示,假设用户使用的是APP产品,可以在APP上部署一个小的监控sdk,定期上报一些数据,根据地域IP访问的同比环比“趋势”判定某个地域用户的网络情况。

缺点:会损耗用户一些流量。另外,既然是“趋势判定”,没有在自己机房内布点那么精确。

四、第三方监控平台

既然是每个公司都有的痛点,实施起来又这么麻烦,自然有创业公司做这个事情。

可以购买第三方监控平台的服务,在配置后台配置

  • 待监控的页面,或者http接口
  • 频率,阈值
  • 告警接收人

等信息,就能够快速实时全国各城市,甚至全世界各个国家的用户视角监控了,非常帅气。

第三方监控平台是怎么实现全国,全世界布点监控的?

额,他们租了机房。

缺点:有点贵,是按照调用次数来收费的。

五、总结

用户视角监控,把系统当作黑盒的一种粗粒度监控。

用户视角监控,能检测出局部地域的用户访问异常。

用户视角监控,有自主租赁机房布点,端上布点趋势检测,使用第三方服务三种方式。

调研

  • 某个省的网络断了,你们能监控到么?
  • 你遇到过,网络供应商往你们站点插小广告么?

原文发布于微信公众号 - 架构师之路(road5858)

原文发表时间:2018-02-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏FreeBuf

如何正确的对安卓手机进行数据恢复?

很多人觉得数据恢复就是拿工具扫一扫,这种想法是非常错误的。想干好一件事,绝不是仅仅机械性的重复固有动作,必须要加入个人的思考。比如对安卓手机的数据恢复,你真的会...

82350
来自专栏软件测试经验与教训

自动化测试实施方案

1.2K60
来自专栏Forrest随想录

有了CMDB,为什么还要应用配置管理

CMDB翻译过来,Configuration Management DataBase,其实也是配置管理的意思,但从实际情况看,CMDB的概念定义已经出现了很大的...

28630
来自专栏AI研习社

如何在微服务架构下构建高效的运维管理平台?

黎明带领团队自主研发了全栈 DevOps 运维管理平台—EasyOps,是目前行业领先的智能化运维管理平台。作为前腾讯运维研发负责人,黎明主导了多个运维系统研发...

51990
来自专栏云计算D1net

公有云提供商挑选准则

当涉及到选择一个公有云供应商时,成本常常是第一个考虑的因素。但其他的因素,例如虚拟机迁移,存储和自动扩展等,也都应该考虑在内。 在企业转移到公有云或混合云时,不...

41570
来自专栏云计算D1net

私有云管理工具大比拼

本文,我们将对业内领先的第三方私有云管理工具进行比较,并为你的环境选择提出正确的建议。 随着越来越多的企业采用了私有云,对于相关管理软件的需求也变得迫切而明显。...

52140
来自专栏杨建荣的学习笔记

自动化运维中的脚本管理和工单管理

蓝色的部分是我们已有的部分,另外的部分是我们当时做得不好的地方。 当然这个过程说起来都是辛酸泪。都是一点一滴的改进。

46120
来自专栏架构师之路

从IDC到云端架构迁移之路(GITC2016)

大家好,很高兴来到GITC2016的舞台,我是来自58到家的沈剑,今天我分享的主题是《58到家从IDC到云端架构迁移之路》。 机房迁移是一个很大的动作: 15年...

43650
来自专栏智能计算时代

[微服务架构 ] 微服务- 生存还是毁灭!

上周,我谈到了作为一系列微服务开发的产品技术架构。谈话几分钟后,很明显团队已经支付了微服务高级版,但没有明显的投资回报。这组微服务是由一个由10名工程师组成的团...

14130
来自专栏ytkah

微信硬件平台智能路由行业解决方案

路由器是提供Wi-Fi网络的重要设备,服务了亿万的家庭,但依然被认为是非常专业的设备,普通用户都不懂得如何使用。我们希望通过微信硬件平台的能力,降低用户使用路由...

31860

扫码关注云+社区

领取腾讯云代金券