导语:文章主要介绍腾讯云 Prometheus 在监控出行行业的突出优势与解决方案,为客户运维团队降低了很多成本。
选型背景
某汽车客户在拥抱腾讯云过程中,监管控的体系成熟度成为运维团队核心 KPI,同时也决定着业务能否在腾讯云上迅速铺开。腾讯云团队与客户联合梳理了现状诉求。以下腾讯云可观测平台 Prometheus 监控服务简称云 Prometheus,腾讯云日志服务 CLS 简称 CLS。
需求类型 | 需求描述 | 云 Prometheus | 开源 Prometheus |
---|---|---|---|
技术栈 | 拥抱云原生,选型 Prometheus | 开箱即用,自动接入云容器服务 | 手动接入,配置复杂 |
团队 | 减少开发和运维投入 | 云产品 Exporter 开箱即用,云团队保障稳定性 | 手动接入 |
可拓展 | 日志与指标打通 | CLS 指标接入云 Prometheus | 手工接入 |
多云环境 | IDC 和腾讯云混布服务 | 支持多集群或多机房 Exporter 接入,支持多副本,水平拓展 | 支持多云部署,集群需要提前规划规格 |
多团队 | 多团队可查询,账号沿用 LDAP | 云 Grafana 支持 LDAP 配置 | 开源 Grafana 支持LDAP 配置 |
在团队初建期,需要更快速地构建统一监控平台的骨架和能力,云产品 Exporter 开箱即用的能力打动了客户团队。客户团队可以更聚焦研发业务,通过标签方式自动识别新增资源,减少人力维护投入。客户运维团队无需冗余 Prometheus 部署资源,随着业务量增长,云 Prometheus 可以做到动态水平拓展。
综上,腾讯云取得了客户的认可,选型通过云 Prometheus 的方案参与到统一监控平台的建设。
实现方案
客户业务组网
双账号:通过云联网构成各自的云内和云下互通链路,并基于云下 IDC 的专线互通实现云上双账号的资源互访。
多云:腾讯云+IDC,需要构建云下和云上结合的可观测能力。
多云场景的技术选型,需要考虑多云的技术栈的适配性,很多车企客户更愿意使用原生 Prometheus,并定制开发告警规则、告警中心等能力。
但对于多云场景,逐一开发适配云产品监控采集能力成本较高,很多云厂商对开源的云产品 Exporter 已经不维护,导致指标接入周期长。客户也在寻求多云场景下统一监控平台的快速构建方案,这往往也是运维团队核心 KPI。
云 Prometheus 构建云产品可观测能力
我们作为一线团队,需要考虑灵活的方案,以应对复杂的客户业务环境。首要思考的是客户的诉求“快速落地”,这样云产品的优势就能完美体现。
云 Prometheus 的优势
抓住客户对对统一监控平台构建快、能力要求丰富的心理,推动云 Prometheus 的落地。
云 Prometheus + Thanos 联邦方案
腾讯云团队使用云 Prometheus 解决云产品 metric、log 的快速实现,客户聚焦 IDC 或友商云产品的自建 Prometheus 的接入。云 Prometheus+自建 Prometheus 的联邦解决方案更符合客户诉求,既能解决客户多云监控诉求,又能带动云 Prometheus 的售卖。
(基于云顾问绘制 Thanos 联邦架构)
车企接入云 Prometheus 实践
为了丰富可观测能力(log、metric、trace),我们结合 CLS、云 Prometheus 和自建 Prometheus 构成了三位一体监控能力。指标聚合在统一监控平台,同时使用一套 Grafana 实现多维的 Dashboard。
日志改造
为了减少运维对日志平台的管理成本,减少业务经常找不到对应 Kibana 查询日志的情况,客户选型 CLS 接入作为统一日志接入平台。同时 CLS 可以作为统一的数据源,将日志加工成时序指标推送至 Prometheus。
场景 | 改造前 | 改造后 |
---|---|---|
技术实现 | N 套自建 ELK | 一套 CLS |
日志查询 | 不同 kibana | 一套查询入口 |
账号管理 | 不同账号管理模版 | 一套账号管理模版 |
告警接入 | 不同 ElasticSearch数据源 | 一套 CLS 数据源 |
存储量级 | 集群磁盘限制 | 无限制 |
成本 | 更高 | 低 |
结合日志的改造,我们与客户更快速的将三位一体监控体系建立。
方案架构图(基于云顾问绘制车云业务场景统一监控平台解决方案)
自建 Prometheus 无法采集的指标,云 Prometheus 可以互补,丰富统一监控平台可观测指标。基于日志和云 Prometheus 在业务团队铺开,实现三位一体监控后,真实地做到了让客户用好云。
服务专业且有温度
EMR 指标完善
腾讯云弹性 MapReduce(以下简称 EMR) 上报至云产品的监控非常多26款组件2600+的监控项,但客户实践过程中关注 Spark 组件的监控丰富度(组件开源指标有几百+)。对于客户的诉求,EMR 团队、云 Prometheus 团队、TAM 团队和行业团队组成攻坚小组。
EMR 指标接入
手工方式部署 jmx-exporter
wget https://rig-1258344699.cos.ap-guangzhou.myqcloud.com/prometheus-jmx-exporter/jmx_prometheus_javaagent-0.18.0.jar -O /usr/local/service/jmx_prometheus_javaagent-0.18.0.jar
rules:
- pattern: ".*"
-javaagent:/usr/local/service/jmx_prometheus_javaagent-0.18.0.jar=27001:/usr/local/service/namenode_config.yml
完成上述配置,即可对 EMR 对应服务进行监控,但是不同服务需要单独配置采集和启动参数(修改监听端口号等)。
EMR 接入 Prometheus 产品化方案
在 Prometheus 的控制台集成中心中,安装 EMR 组件,同时对填写任务名、EMR 集群所在地域、EMR 实例 ID 进行调整,即可完成采集。
EMR 监控,一键集成:腾讯云 Prometheus 对 EMR 大数据平台的一键集成,大大提升了为大数据平台构建可观测性的效率,从天级接入降为分钟级接入,且全托管、一站式,彻底免去为27个 EMR 组件搭建和运维采集代理的成本。
弹性扩容,无惧洪峰:在某汽车客户的的新车发布直播和双十一大促时,流量比平时高出数倍。而借力腾讯云 Prometheus + Grafana 的弹性扩容能力,就能避免自建的 Prometheus + Grafana 触及性能瓶颈,从而保证重大活动期间监控的流畅性,极大地降低了流量洪峰下的运维风险。
通过客户和腾讯云团队的努力,帮助客户在1个月内完成建设统一监控平台的核心 KPI,同时对客户不同场景的监控需求,推动产品团队完善了 EMR 27个组件接入 Prometheus 的可观测需求。
云 Prometheus 切入客户案例
1、案例一
问题背景
某 TOP 车企客户反馈基于 CVM 自建的 starrocks 集群节点异常,节点指标采集中断。客户侧判断为 CVM 故障,需要腾讯云团队协助应急并尽快输出故障报告。
问题现象
客户判断机器故障是基于节点监控中断,重启之后监控指标恢复。
实际情况
并非客户理解的节点故障,通过对节点的诊断和排障,分析是系统盘 IO 被打满,导致 OS 无法响应。
系统盘被打满的监控情况如下:
切入点
Q:腾讯云为什么能监控到磁盘 IO 高,而他们自建 Prometheus 无法监控。
A:腾讯云 CBS 有自身监控能力,并上报到云监控,通过云监控也可以观测到 CBS IO 被打满。
Q:如何补齐这部分能力?
A:腾讯云 Prometheus 通过不同产品视角补齐节点异常的可观测能力
2、案例二
问题背景
某 TOP 车企客户大数据业务场景读写 COS 频繁触发流控频控,但该产品监控指标接入自建统一监控平台还需要开发周期。
切入点
Q:腾讯云 COS 指标是否能监控到频控和流控?
A:腾讯云 COS 支持频控的监控,流控可以通过上下行带宽进行监控。
Q:运维团队接入 COS 排期还需两个月,如何快速补齐这部分能力?
A:腾讯云 Prometheus 可以通过集成中心快速适配云监控已采集的云产品指标,并通过 Remote Write 的方式推送至自建 Prometheus,快速让自建 Prometheus 具备统一告警,Grafana 统一观测的能力。
结语
腾讯云可观测平台已广泛应用于出行行业的绝大多数领先车企,涵盖了行业内的头部企业。通过与这些车企的合作,腾讯云可观测平台积累了丰富的行业案例和最佳实践,为出行行业提供了可靠的数据监测和性能优化解决方案。
若有任何可观测需求,欢迎随时前来咨询。腾讯云将会继续用专业且有温度的服务来帮助到您。
联系我们
如有任何疑问,欢迎加入官方技术交流群
关于腾讯云可观测平台
腾讯云可观测平台(Tencent Cloud Observability Platform,TCOP)基于指标、链路、日志、事件的全类型监控数据,结合强大的可视化和告警能力,为您提供一体化监控解决方案。满足您全链路、端到端的统一监控诉求,提高运维排障效率,为业务的健康和稳定保驾护航。功能模块有: