前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >监控方法论

监控方法论

作者头像
yeedomliu
发布2022-12-03 10:43:35
3130
发布2022-12-03 10:43:35
举报
文章被收录于专栏:yeedomliuyeedomliu

两个方法论结合使用可以获得一个相当全面的环境视图,帮助你解决任何问题。

USE方法

侧重于主机级监控。 USE是使用率(Utilization)、饱和度(Saturation)和错误(Error)的缩写,该方法是由Netflix的内核和性能工程师Brendan Gregg开发的。USE方法建议创建服务器分析清单,以便快速识别问题。

监控方法提供的指导原则可以让你缩小范围并专注于所收集的海量时间序列中的特定指标

USE方法可以概括为:针对每个资源,检查使用率、饱和度和错误。该方法对于监控那些受高使用率或饱和度的性能问题影响的资源来说是最有效的

  1. 资源:系统的一个组件。在Gregg对模型的定义中,它是一个传统意义上的物理服务器组件,如CPU、磁盘等,但许多人也将软件资源包含在定义中。
  2. 使用率:资源忙于工作的平均时间。它通常用随时间变化的百分比表示。 ·饱和度:资源排队工作的指标,无法再处理额外的工作。通常用队列长度表示。
  3. 错误:资源错误事件的计数。

Google的四个黄金指标

来自Google SRE手册,专注于应用程序级监控

此方法中的指标类型主要关注的不是系统级的时间序列数据,更多是针对应用程序或面向用户的部分:

  1. 延迟:服务请求所花费的时间,需要区分成功请求和失败请求。例如,失败请求可能会以非常低的延迟返回错误结果。
  2. 流量:针对系统,例如,每秒HTTP请求数,或者数据库系统的事务。
  3. 错误:请求失败的速率,要么是HTTP 500错误等显式失败,要么是返回错误内容或无效内容等隐式失败,或者基于策略原因导致的失败——例如,强制要求响应时间超过30ms的请求视为错误。
  4. 饱和度:应用程序有多“满”,或者受限的资源,如内存或IO。这还包括即将饱和的部分,例如正在快速填充的磁盘。
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-11-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 yeedomliu 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • USE方法
  • Google的四个黄金指标
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档