Prometheus 监控服务

Prometheus 告警检测的基本原理是每隔一分钟使用 Instant Query 查询数据，如果（持续）满足告警条件则触发。某些情况下 Prometheus 的 Range Query 会补齐填充数据，图表上连续的时间线，在告警组件的执行逻辑下可能就是不连续的，另外由于告警定时检查的特性，告警被检测到的时间可能会有些许延后，可以通过查询 ALERTS 或者 ALERTS_FOR_STATE 指标来查看告警的状态。... 展开详请

赞0 收藏0 评论0

如何查看告警历史？

0回答

Prometheus 监控服务

gavin1024

已采纳

抱歉，该回答内容违规，已被管理员封禁

告警重复时间间隔和配置的时长不一致？

0回答

Prometheus 监控服务

gavin1024

已采纳

抱歉，该回答内容违规，已被管理员封禁

原始指标存在的情况下，rate/irate 函数为什么没有产生任何数据?

1回答

Prometheus 监控服务

gavin1024

已采纳

rate/irate 函数需要至少两个数据点才能进行计算，所以要保证 rate/irate 计算的时间范围覆盖到至少两个数据点，考虑到网络等异常可能出现的数据点丢失的情况，这个时间范围官方推荐为四倍的采集间隔。

赞0 收藏0 评论0

rate/irate 函数为什么计算出一个极大的异常值？

1回答

Prometheus 监控服务

gavin1024

已采纳

rate/irate 函数只能用于 Counter 类型的指标，Counter 类型的指标定义为严格递增的数字，Prometheus 查询时会处理 Counter 重置为 0 的问题，如服务器重启等，正常情况下不对计算结果产生影响，除非出现数据点乱序的问题，例如 9999 和 10000 两个秒级的数据点乱序，导致异常值为 (10000+9999)-10000=9999（正常情况应该为 1），出现这种情况的典型场景如下：... 展开详请

赞0 收藏0 评论0

查询返回的数据点间隔为什么和抓取间隔不一样？

1回答

Prometheus 监控服务

gavin1024

已采纳

Prometheus 查询返回的数据点间隔由查询参数 interval/step 来决定，每个数据点都是严格按照 interval/step 来补齐对齐的，和抓取间隔没有一一对应的关系，在数据丢失过多或者抓取间隔过大的情况下不会进行数据补齐，存储端也不会存储任何抓取配置相关的信息，需要用户对自己的抓取配置自行处理。... 展开详请

赞0 收藏0 评论0

查询为什么多返回了最近五分钟的数据？

1回答

Prometheus 监控服务

gavin1024

已采纳

Prometheus 默认会对某些查询的进行数据补齐，即使最近五分钟只有一个数据点可能也会返回五分钟多个数据点（根据查询的 step/interval 参数的不同而不同），这个是开源 Prometheus 的默认行为，暂时无法调整。一般情况下，并不影响正常使用。

赞0 收藏0 评论0

Prometheus 原生的某些 API 功能是否支持？

1回答

Prometheus 监控服务

gavin1024

已采纳

TMP 不同于开源的单机版 Prometheus，腾讯云 Prometheus 监控服务是采集和存储分离的结构，不支持所有原生的 API 功能。请参考目前提供的 API 列表。

赞0 收藏0 评论0

TMP 不同于开源的单机版 Prometheus，腾讯云 Prometheus 监控服务是采集和存储分离的结构，不支持所有原生的 API 功能。请参考目前提供的 API 列表。

告警恢复时通知模板里面的 $value 不正确，如何处理？

1回答

Prometheus 监控服务

gavin1024

已采纳

告警恢复的 $value 是最后一次满足告警表达式条件的值无法获取不满足条件的值。从设计上来讲来告警表达式是作为一个整体的，告警表达式和普通场景下的 PromQL 查询没有任何区别，查询结果中的 series 如果满足持续时长就会被触发，当下次查询的结果不包含某个 series 时，该 series 对应的告警会变成恢复状态，Prometheus 无法自行对告警表达式进行拆解和解释，因为有些表达式本身是不包含阈值等比较关系的，例如：a and b 、123456789。... 展开详请

赞0 收藏0 评论0