前几天在CCTV播出的《新闻联播》——“众志成城保供应 企业在行动”,对腾讯在疫情期间向全国用户免费开放300人不限时的会议功能进行了报道:
腾讯在疫情期间为全部用户免费提供300人不限时的会议功能,并提供7*24小时服务,为政府应急指挥沟通、医疗物资调配、工作人员在家远程办公提供支持。
腾讯会议可满足全球130个国家和地区的5000万用户同时在线需求,这背后不仅有8天紧急扩容超100万核心的强大资源保障,还有腾讯云监控对其服务质量的保驾护航。
业务要保障SLA,需要立体式监控体系:指标监控、日志监控和链路监控,今天我们仅来聊聊腾讯会议流量暴涨背后的指标监控场景。那么研发是如何通过定义指标,管理指标,分析指标,从而快速感知自己负责的模块发生异常并定位原因呢?腾讯会议通过腾讯云监控团队自研的监控平台来实现。
研发在产品开发初期就会为产品的 SLA 下很多功夫,在关键路径加入上报指标的埋点。
例如:用户登录过程的一个模块会分解成十几个逻辑步骤,而每个步骤由会分解成不同的指标,比如请求成功或者失败。每个模块分解的越详细,意味着出现异常时可供排查问题的信息越详细,产生的指标也就越多。所以产生成千上万个类似如下的业务自定义指标,一点也不夸张:
指标一多,问题来了:如何快速知道业务SLA发生变化,并对业务运营状况了然于胸?研发小哥哥通过Grafana搭建核心监控大盘,专门展示“最关键”的业务指标,以便值班同学查看腾讯会议核心指标的变化情况。
如此海量的服务器和上报指标,每个研发小哥哥手里维护的模块都不止一个,而每个模块又有成千上万个指标,非常不利于查看和管理。通过腾讯自研监控平台的多层分组管理功能可解决这一问题:
成千上万个指标,异常又是如何快速被发现呢?由于业务流量突增,手动更改告警的阈值规则会不准确。通过时间序列算法,腾讯云监控团队自研 Metis ,可以帮助腾讯会议智能检测出异常,并把相同时间段内相似异常特性的指标,关联收敛成一条告警推送。业务点击打开告警查看详情时,不仅可以看到发生异常的指标,还可以展开看到每台机器上报该指标的单机视图,方便业务快速清晰地定位问题。
疫情期间,PC 端关注重要指标监控告警多有不便,监控小程序可解决上述问题,通过接入小程序,业务可方便在手机实时查看重要业务指标。
用户根据业务特性定义重要指标,管理指标是重要的监控保障方式。腾讯海量业务,如QQ、看点、腾讯课堂等无不通过指标监控的方式在为服务于用户体验。
腾讯云监控也对外开放了自定义监控功能,为广大腾讯云客户提供指标监控的能力。
目前只把自研监控的部分能力上线,还有更多更丰富的功能持续迭代中,尽请期待。
除了自定义监控,腾讯云监控还提供了基础监控和日志监控的功能。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。