文章/答案/技术大牛

发布

高可用 Prometheus 的常见问题

文章来源：企鹅号 - 科技新闻贾知道

监控系统的历史悠久，是一个很成熟的方向，而 Prometheus 作为新生代的开源监控系统，慢慢成为了云原生体系的事实标准，也证明了其设计很受欢迎。本文主要分享在 prometheus 实践中遇到的一些问题和思考

几点原则

监控是基础设施，目的是为了解决问题，不要只朝着大而全去做，尤其是不必要的指标采集，浪费人力和存储资源（To B 商业产品例外）

需要处理的告警才发出来，发出来的告警必须得到处理

简单的架构就是最好的架构，业务系统都挂了，监控也不能挂，Google SRE 里面也说避免使用 magic 系统，例如机器学习报警阈值、自动修复之类。这一点见仁见智吧，感觉很多公司都在搞智能 AI 运维

prometheus 的局限

prometheus 是基于 metric 的监控，不适用于日志（logs）、事件(event)、调用链(tracing)

prometheus 默认是 pull 模型，合理规划你的网络，尽量不用 pushgateway 转发

对于集群化、水平扩展，官方和社区都没有银弹，合理选择 federate、cortex、thanos

监控系统一般可用性>一致性，这个后面说 thanos 的时候会提到

合理选择黄金指标

我们应该关注哪些指标？Google 在“SRE Handbook”中提出了“四个黄金信号”：延迟、流量、错误数、饱和度。实际操作中可以使用 USE 或 RED 方法作为指导，USE 用于资源，RED 用于服务

USE 方法：Utilization、Saturation、Errors

RED 方法：Rate、Errors、Duration

对 USE 和 RED 的阐述可以参考容器监控实践—K8S 常用指标分析[1]这篇文章

采集组件 all in one

prometheus 体系中 exporter 都是独立的，每个组件各司其职，如机器资源用 node-exporter，gpu 有 NVIDIA exporter 等等，但是 exporter 越多，运维压力越大，尤其是对 agent 做资源控制、版本升级。我们尝试对一些 exporter 进行组合，方案有二：

通过主进程拉起 n 个 exporter 进程，仍然可以跟着社区版本更新

用 telegraf 来支持各种类型的 input，n 合 1

另外，node-exporter 不支持进程监控，可以加一个 process-exporter，也可以用上边提到的 telegraf。

k8s 1.16 中 cadvisor 的指标兼容问题

在 k8s 1.16 版本，cadvisor 的指标去掉了 pod_name 和 container_name 的 label，替换为了 pod 和 container。如果你之前用这两个 label 做查询或者 grafana 绘图，得更改下 sql 了。因为我们一直支持多个 k8s 版本，就通过 relabel 配置继续保留了原来的**_name

注意要用 metric_relabel_configs，不是 relabel_configs，采集后做的 replace。

prometheus 集群内与集群外部署

prometheus 如果部署在 k8s 集群内采集是很方便的，用官方给的 yaml 就可以，但我们因为权限和网络需要部署在集群外，二进制运行，专门划了几台高配服务器运行监控组件。

以 pod 方式运行在集群内是不需要证书的（in-cluster 模式），但集群外需要声明 token 之类的证书，并替换address。例如：

上面是通过默认配置中通过 apiserver proxy 到 let，如果网络能通，其实也可以直接把 kubelet 的 10255 作为 target，规模大的时候还减轻了 apiserver 的压力，不过这种方式就要写服务发现来更新 node 列表了。

gpu 指标的获取

nvidia-smi 可以查看机器上的 gpu 资源，而 cadvisor 其实暴露了 metric 来表示容器使用 gpu 情况，

如果要更详细的 gpu 数据，可以安装dcgm exporter[2]，不过 k8s 1.13 才能支持

更改 prometheus 的显示时区

prometheus 为避免时区混乱，在所有组件中专门使用 Unix time 和 UTC 进行显示。不支持在配置文件中设置时区，也不能读取本机/etc/timezone 时区。

其实这个限制是不影响使用的：

如果做可视化，grafana 是可以做时区转换的

如果是调接口，拿到了数据中的时间戳，你想怎么处理都可以

如果因为 prometheus 自带的 ui 不是本地时间，看着不舒服， 2.16 版本[3]的新版 webui 已经引入了 local timezone 的选项。区别见下图

如果你仍然想改 prometheus 代码来适应自己的时区，可以参考这篇文章[4]

关于 timezone 的讨论，可以看这个issue[5]

如何采集 lb 后面的 rs 的 metric

假如你有一个负载均衡 lb，但网络上 prometheus 只能访问到 lb 本身，访问不到后面的 rs，应该如何采集 rs 暴露的 metric？

rs 的服务加 sidecar proxy，或者本机增加 proxy 组件，保证 prometheus 能访问到

lb 增加/ backend1 和/ backend2 请求转发到两个单独的后端，再由 prometheus 访问 lb 采集

版本

prometheus 当前最新版本为 2.16，prometheus 还在不断迭代，因此尽量用最新版，1.x 版本就不用考虑了。

2.16 版本上有一套实验 UI，可以查看 TSDB 的状态，包括 top 10 的 label、metric

prometheus 大内存问题

随着规模变大，prometheus 需要的 cpu 和内存都会升高，内存一般先达到瓶颈，这个时候要么加内存，要么集群分片减少单机指标。这里我们先讨论单机版 prometheus 的内存问题

原因：

prometheus 的内存消耗主要是因为每隔 2 小时做一个 block 数据落盘，落盘之前所有数据都在内存里面，因此和采集量有关。

加载历史数据时，是从磁盘到内存的，查询范围越大，内存越大。这里面有一定的优化空间

一些不合理的查询条件也会加大内存，如 group、大范围 rate

我的指标需要多少内存：

作者给了一个计算器，设置指标量、采集间隔之类的，计算 prometheus 需要的理论内存值：https://www.robustperception.io/how-much-ram-does-prometheus-2-x-need-for-cardinality-and-ingestion

以我们的一个 promserver 为例，本地只保留 2 小时数据，95 万 series，大概占用的内存如下：

有什么优化方案：

sample 数量超过了 200 万，就不要单实例了，做下分片，然后通过 victoriametrics，thanos，trickster 等方案合并数据

评估哪些 metric 和 label 占用较多，去掉没用的指标。2.14 以上可以看 tsdb 状态[6]

查询时尽量避免大范围查询，注意时间范围和 step 的比例，慎用 group

如果需要关联查询，先想想能不能通过 relabel 的方式给原始数据多加个 label，一条 sql 能查出来的何必用 join，时序数据库不是关系数据库。

prometheus 内存占用分析：

通过 pprof 分析：https://www.robustperception.io/optimising-prometheus-2-6-0-memory-usage-with-pprof

1.x 版本的内存：https://www.robustperception.io/how-much-ram-does-my-prometheus-need-for-ingestion

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

高可用 Prometheus 的常见问题

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐