操作场景
在使用 Kafka 过程中需要对 Kafka 运行状态进行监控,例如集群状态、消息消费情况是否有积压等, Prometheus 监控服务提供基于 Exporter 的方式来监控 Kafka 运行状态,并提供了开箱即用的 Grafana 监控大盘。本文介绍如何部署 Exporter 以及实现 Kafka Exporter 告警接入等操作。
说明:
接入方式
方式一:一键安装(推荐)
前提条件
Prometheus 实例所在私有网络 VPC 与 Kafka 网络相通。
需在 Kafka 放通 Prometheus IPv4 地址的读权限,详细步骤可参见 配置 ACL 策略。
操作步骤
1. 登录 Prometheus 监控服务控制台。
2. 在实例列表中,选择对应的 Prometheus 实例。
3. 进入实例详情页,选择数据采集,再点击集成中心。
4. 在集成中心找到并单击 Kafka,即会弹出一个安装窗口,在安装页面填写指标采集名称和地址等信息,并单击保存即可。
配置说明
参数 | 说明 |
名称 | 集成名称,命名规范如下: 名称具有唯一性。 名称需要符合下面的正则:'^[a-z0-9]([-a-z0-9]*[a-z0-9])?(\\.[a-z0-9]([-a-z0-9]*[a-z0-9])?)*$'。 |
地址 | 填写 Kafka Broker 的连接地址。 |
Kafka 版本 | 选填,部分特定版本必填,例如 0.10.2.0。 |
标签 | 给指标添加自定义 Label。 |
topic 过滤正则 | 选填,不填默认采集全部的 topic。填写后只会采集符合正则的 topic。 |
group 过滤正则 | 选填,不填默认采集全部的 group。填写后只会采集符合正则的 group。 |
方式二:自定义安装
说明:
前提条件
在 Prometheus 监控服务控制台 > 选择对应的 Prometheus 实例 > 数据采集 > 集成容器服务中找到对应容器集群完成关联集群操作。详情可参见 关联集群。
需在 Kafka 放通 Prometheus IPv4 地址的读权限,同上文 一键安装 的前提条件。
操作步骤
步骤一:Exporter 部署
1. 登录 容器服务控制台。
2. 在左侧菜单栏中单击集群。
3. 单击需要获取集群访问凭证的集群 ID/名称,进入该集群的管理页面。
4. 在左侧菜单中选择工作负载 > Deployment,进入 Deployment 页面。
5. 在 Deployment 管理页面,单击新建,选择对应的命名空间来进行部署服务。可以通过控制台的方式创建,如下以 YAML 的方式部署 Exporter,YAML 配置示例如下:
apiVersion: apps/v1kind: Deploymentmetadata:labels:k8s-app: kafka-exporter # 根据业务需要调整成对应的名称,建议加上 Kafka 实例的信息, 如 ckafka-2vrgx9fd-kafka-exportername: kafak-exporter # 根据业务需要调整成对应的名称,建议加上 Kafka 实例的信息, 如 ckafka-2vrgx9fd-kafka-exporternamespace: kafka-demo # 集群的 namespace,exporter 会部署在该 namespace 下spec:replicas: 1selector:matchLabels:k8s-app: kafka-exporter # 根据业务需要调整成对应的名称,建议加上 Kafka 实例的信息, 如 ckafka-2vrgx9fd-kafka-exportertemplate:metadata:labels:k8s-app: kafka-exporter # 根据业务需要调整成对应的名称,建议加上 Kafka 实例的信息, 如 ckafka-2vrgx9fd-kafka-exporterspec:containers:- args:- --kafka.server=x.x.x.x:9092 # 对应 Kafka 实例的地址信息image: ccr.ccs.tencentyun.com/rig-agent/kafka-exporter:v1.3.0imagePullPolicy: IfNotPresentname: kafka-exporterports:- containerPort: 9121name: metric-port # 这个名称在配置抓取任务的时候需要securityContext:privileged: falseterminationMessagePath: /dev/termination-logterminationMessagePolicy: FilednsPolicy: ClusterFirstimagePullSecrets:- name: qcloudregistrykeyrestartPolicy: AlwaysschedulerName: default-schedulersecurityContext: {}terminationGracePeriodSeconds: 30
说明:
步骤二:添加采集任务
1. 登录 Prometheus 监控服务控制台,选择对应 Prometheus 实例进入管理页面。
2. 进入集成容器服务,选择已经关联的集群,通过数据采集配置 > 自定义监控 > 新建自定义监控 > YAML编辑,来添加采集配置。
监控类型选择
PodMonitors
,YAML 配置示例如下:apiVersion: monitoring.coreos.com/v1kind: PodMonitormetadata:name: kafka-exporter # 填写一个唯一名称namespace: cm-prometheus # 按量实例: 集群的 namesapce; 包年包月实例(已停止售卖): namespace 固定,不要修改spec:podMetricsEndpoints:- interval: 30s # 采集间隔port: metric-port # 填写步骤一 yaml 中的 spec.template.spec.containers[0].ports[0].namepath: /metrics # Exporter 的指标采集路径,默认填 /metricsrelabelings:- action: replacesourceLabels:- instanceregex: (.*)targetLabel: instancereplacement: 'ckafka-xxxxxx' # 调整成对应的 Kafka 实例 ID- action: replacesourceLabels:- instanceregex: (.*)targetLabel: ipreplacement: '1.x.x.x' # 调整成对应的 Kafka 实例 IPnamespaceSelector:matchNames:- kafka-demo # 填写 Exporter 所在的 namespaceselector: # 填写要监控 pod 的 Label 值,以定位目标 podmatchLabels:k8s-app: kafka-exporter
说明:
由于
Exporter
和 Kafka
部署在不同的服务器上,因此建议通过 Prometheus Relabel 机制将 Kafka 实例的信息放到监控指标中,以便定位问题。查看监控
前提条件
Prometheus 实例已绑定 Grafana 实例。
操作步骤
1. 登录 Prometheus 监控服务控制台,选择对应 Prometheus 实例进入管理页面。
2. 选择数据采集 > 集成中心,在集成中心页面找到 Kafka 监控,选择 Dashboard 操作 > Dashboard 安装/升级 来安装对应的 Grafana Dashboard。
3. 选择查看已集成,在已集成列表中点击 Grafana 图标即可自动打开 Kafka 监控大盘,查看实例相关的监控数据,如下图所示:
配置告警
1. 登录 Prometheus 监控服务控制台,选择对应 Prometheus 实例进入管理页面。
2. 选择告警管理,可以添加相应的告警策略,详情请参见 新建告警策略。