前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大国点名,监控护航

大国点名,监控护航

作者头像
腾讯云可观测平台
发布2020-12-10 10:41:07
1.9K0
发布2020-12-10 10:41:07
举报
文章被收录于专栏:腾讯云可观测专栏

作者:张加浪 腾讯云监控高级工程师

背景

十年一次的人口普查是涉及全国十几亿人的重大事情,每次人口普查都是对国人的一次梳理,国家和人民都十分重视。随着技术的不断创新,人口普查的普查方式也在不断升级,从人工加算盘到人工加老式计算机,再到卫星传感。

在第七次全国人口普查 (以下简称 “七人普”) 的到来之际,国家决定通过 “电子化方式普查登记,腾讯提供技术支持” 更快更准的普查方式,即实行云端普查登记。

七人普主要通过小程序方式进行制证、普查员注册、人口普查等,700 万的普查员,十几亿的普查对象,服务必然需要高并发、高可靠。腾讯云提供了全面的技术和资源支持,服务分成多个微服务模块和多场景(压测、试点、制证和普查等),用到了 CVM、CDB、Redis、TSF、WAF 等资源。涉及场景多、资源多、服务模块多,如何有效通过监控运维护航项目服务,面临着巨大挑战。

监控方案

基于七人普的服务特性以及涉及的多场景,监控方案一方面需要覆盖 IaaS、PaaS 和 SaaS,一方面需要覆盖多场景(试点、压测、普查、制证等)、多服务模块(后台、小程序、公共服务等)和多方人员需求(研发、运维、合作方、客户等)。

根据七人普的实际状况,需要考虑以下几个维度:

  1. 数据采集:便捷、全面的上报(采集)监控指标数据;
  2. 指标选择:配置核心监控指标,高效发现业务问题;
  3. 数据观测:集服务性能、业务运营、用户视角数据和运维需求等于一体的业务大屏;
  4. 异常通知:指标告警以及云产品相关事件数据,如机器重启、机器 ping 不可达等通知用户;
  5. 角色参与:运维、研发、客户和合作方等不同人员的多角色监控共享;
  6. 数据消费:支持业务基于相关指标数据做巡检。

这些需求如何通过云监控来满足和实现呢?云监控是将指标、事件等类型的数据采集后,通过对数据的处理,可视化的展示给用户,并且在发生异常时,及时通知用户。云监控以监控中台(数据处理加工)、业务告警(告警配置)和 Dashboard(业务大屏)为一体,让客户只需腾讯云账号,即可完成全面的监控需求。

我们制定的用云监控护航七人普项目方案如下:

  1. 数据采集:云产品默认基于云监控上报资源指标数据如 CVM 或 CDB,因此,客户购买的云资源监控可直接使用云监控完成。业务自定义数据可使用监控中台 Prometheus 协议加 Telegraf 方式灵活上报;
  2. 指标选择:云监控提供云产品的核心指标建议,客户可聚焦在业务的指标配置,无需过多关注底层资源指标;
  3. 数据观测:基础资源数据和业务数据上报到云监控,使用云监控 Dashboard 可配置出各个视角的监控大屏;
  4. 异常通知:客户通过云监控告警策略可自助订阅关心的云产品事件信息以及核心指标的异常信息;
  5. 角色参与:腾讯云支持子账号方式管理账号权限,因此,可对不同账号用户给予不同的云监控使用权限;
  6. 云监控在使用场景允许情况下支持自助数据消费。
  7. 基础监控和业务监控通过使用云监控成熟的监控方案,实现了基础云产品的监控和灵活的业务数据上报,将全量数据统一展示在 Dashboard 大屏,以及基于大数据处理的基础云产品和业务告警。

监控实现

七人普使用一体化的云监控产品完成监控需求,运维和开发等登录官网控制台后,可直接查看相关监控数据和配置,快速配置出监控大屏和相关告警。

七人普监控流程图

通过接入云监控的基础数据和业务自定义指标数据可配置出不同场景、不同用户视角的监控大屏,并且针对不同的子账号控制 Dashboard 查看和操作权限。

Dashboard 大屏列表

Dashboard 大屏

护航现场大屏

接入云监控的基础数据和业务自定义数据不仅可做大屏,相同数据源还可用于配置不同场景需求的告警策略,及时发现线上服务中发生的各种性能或业务异常问题。

告警规则列表

告警列表

自助订阅关心的腾讯云产品相关事件消息,便于客户更好维护好服务稳定性。

云监控事件中心

通过相关指标数据上报并对其做告警配置可及时主动发现项目中各种问题,同时也为分析问题提供了全面的性能或业务状态数据参考。

问题分析案例

上述是七人普使用云监控实现的一体化监控,简单的上报方式可覆盖基础和业务全量数据,使用相同数据源完成了 Dashboard 大屏和告警配置需求等。合理的使用云监控完成了七人普的监控护航,通过异常告警的接收,及时发现并处理了活动中的问题。

总结

云监控完成了对七人普项目的监控护航,主要涉及完整业务项目监控需求设计、监控方案制定和具体使用及问题发现分析处理等。云监控为腾讯云客户提供了全面、灵活、低门槛的监控服务。

同时,云监控也在不断深入拜访客户,研究更深层次的监控需求,为客户提供更高质量的监控服务。当前云监控能支持的场景有:

腾讯云产品基础监控;业务突发活动监控护航(如活动大促、广交会和疫情保障等)、业务自定义监控(如七人普监控专项)等。

更多的场景支持提升了云监控的能力,同时也使得为更多不同场景需求的客户提供更加专业的监控能力成为可能。

直播预约--12月9日(周三)晚7:00

《云监控 Dashboard: 如何通过自研组件构建高性能监控可视化?》

欢迎联系云监控小助手微信号,加群讨论:)

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-12-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯云可观测 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
前端性能监控
前端性能监控(Real User Monitoring,RUM)是一站式前端监控解决方案,专注于 Web、小程序等场景监控。前端性能监控聚焦用户页面性能(页面测速,接口测速,CDN 测速等)和质量(JS 错误,Ajax 错误等),并且联动腾讯云应用性能监控实现前后端一体化监控。用户只需要安装 SDK 到自己的项目中,通过简单配置化,即可实现对用户页面质量的全方位守护,真正做到低成本使用和无侵入监控。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档