操作场景
Prometheus 监控服务-云监控模块集成腾讯云产品基础监控数据,通过 Prometheus 监控进行统一采集、存储和可视化。
说明:
数据采集间隔:默认1分钟。目前不支持更小的采集间隔。
监控数据粒度:1分钟。如果指标不支持1分钟粒度,则选择5分钟粒度。
集成的监控数据包含云产品的标签数据(部分云产品不支持),标签键必须符合正则表达式
[a-Za-Z_][a-Za-Z0-9_]*
,否则会被过滤。不支持多地域。如果云产品分布在多个地域,需要安装多个集成。
操作步骤
1. 登录 Prometheus 控制台。
2. 在实例列表中,选择并进入对应的 Prometheus 实例。
3. 在实例详情页,选择数据采集 > 集成中心。
4. 在集成中心单击云监控,默认进入安装页面。定义集成名称、选择对应的云产品和进行 Exporter 配置。


配置说明
参数 | 说明 |
名称 | 集成名称,命名规范如下: 名称具有唯一性。 名称需要符合下面的正则:'^[a-z0-9]([-a-z0-9]*[a-z0-9])?(\\.[a-z0-9]([-a-z0-9]*[a-z0-9])?)*$'。 |
地域 | 必填,云产品所在地域。如果云产品不区分地域,则填写任意地域。 |
云产品选择 | 勾选想要采集的云产品。 |
数据拉取配置 | 单位秒。若设置为0,将忽略原始数据的时间戳;若设置大于0,将上报原始数据的时间戳,由于云产品监控数据上报到基础监控存在一定的延迟,该延迟将会体现在最新的数据上。 拉取数据范围:(当前时间 - 数据采集延迟 - 固定的时间间隔, 当前时间 - 数据采集延迟)。 |
实例刷新间隔 | 单位分钟,最小值为10。每隔一个实例刷新间隔,集成会重新拉取云产品实例信息。如果修改了实例名、云标签或者增删实例,会在一个实例刷新间隔内更新监控数据。 |
实例 ID 过滤 | |
云标签过滤 | 选填。键值对形式填写,一个标签键可以对应多个标签值,以 | 分割。不同的标签键取交集,同一标签键下的多个标签值取并集。对于支持云标签过滤的产品,如果同时配置了实例 ID 过滤,该产品的云标签过滤将不会生效。 |
云标签键替换 | 选填。将不合法的云产品标签键替换为合法值,例如将中文名转换成自定义的英文名。 |
云标签键操作 | 集成默认将标签键的大写字母转换成下划线+小写字母。支持对云产品标签键的转换操作: ToUnderLineAndLower:默认操作。 ToLower:表示全转成小写字母。 NoOperation:表示不做转换。 |
额外实例信息 | 添加额外的实例信息。Project 表示添加项目 ID 和项目名称标签,只有部分云产品支持。 |
维度开白 | 选填。部分云产品的维度存在指标名称相同、功能需要开白等问题,默认不采集,可通过该配置开启采集。 lb_public:listener:负载均衡(公网)-监听器维度。 lb_public:target:负载均衡(公网)-后端服务器维度。 lb_public:domain:负载均衡(公网)-转发规则域名维度。 lb_private:listener:负载均衡(内网)-监听器维度。 lb_private:target:负载均衡(内网)-后端服务器维度。 lb_private:domain:负载均衡(内网)-转发规则域名维度。 apigw_cloudnative:node:云原生 API 网关-节点维度。 scf_v2:version:云函数-版本维度。 vbc:qosid:云联网-调度队列维度。 ces:node:Elasticsearch-节点维度。 |
标签 | 选填。可以给集成采集到的指标添加额外的自定义标签。 |
跨账号采集 | 本账号角色:自定义角色,用于获取本账号临时密钥。 目标账号角色:自定义角色,用于获取目标账号临时密钥。 目标账号 uin:目标账号的主账号 ID。 |
抓取间隔 | 最小1分钟。因为监控数据粒度是1分钟,低于1分钟的抓取间隔没有意义。填写示例:60s、1m30s、5m、1h30m。 |
抓取超时 | 抓取超时必须小于等于抓取间隔。填写方式同抓取间隔。 |
Metric Relabel 配置 |
Metric Relabel 配置示例
下面是常用的 metric_relabel_configs 示例:
metric_relabel_configs:- action: labeldrop # 去掉名为 labelA 的 label。regex是正则表达式,多个正则表达式用 | 分隔regex: labelA- regex: ins-(.*) # 新增一个名为 id 的 label,其值通过名为 instance_id 的 label 的值经过正则处理后得到。例如 instance_id="ins-a",新得到的 id="a"replacement: $1source_labels:- instance_idtarget_label: id- target_label: region # 新增一个 region="ap-guangzhou" 的 labelreplacement: ap-guangzhou- action: drop # 去掉名为 metricA 或 metricB 的指标source_labels:- __name__regex: metricA|metricB
支持的云产品
云产品/指标文档 | 是否支持采集云标签 | 唯一 ID | 补充说明 |
是 | cvm | 仅支持实例维度指标。 | |
是 | sdn_vm | - | |
是 | cbs | - | |
是 | lb_public | 默认采集实例维度指标,如需监听器、转发规则域名或后端服务器维度指标,请自行添加维度开白配置。不同维度的指标名相同,可以通过 monitor_view 标签来区分维度: 实例维度:instance; 监听器维度:listener; 后端服务器维度:target; 转发规则域名维度:domain。 | |
是 | lb_private | 默认采集实例维度指标,如需监听器或转发规则域名维度指标,请自行添加维度开白配置。不同维度的指标名相同,可以通过 monitor_view 标签来区分维度: 实例维度:instance; 监听器维度:listener; 后端服务器维度:target; 转发规则域名维度:domain。 | |
负载均衡(四层独占集群) | 是 | tgw_set | 该产品是负载均衡开白产品,指标随时可能变化,不提供对外指标文档。 |
负载均衡(七层独占集群) | 是 | tgw_set_l7 | 该产品是负载均衡开白产品,指标随时可能变化,不提供对外指标文档。 |
是 | cmongo | - | |
是 | cdb | - | |
是 | redis | - | |
是 | redis_mem | 支持实例维度和节点维度指标。 | |
云数据库 Tendis | 是 | tendis | - |
CTSDB(InfluxDB 版) | 是 | xstor | 该产品是 CTSDB 开白产品,指标随时可能变化,不提供对外指标文档。 |
是 | mariadb | 仅支持实例维度指标。 | |
是 | postgres | - | |
是 | tdmysql | 仅支持实例维度指标。 | |
是 | cynosdb_mysql | 仅支持实例维度指标。 | |
是 | sqlserver | 仅支持实例维度指标。 | |
是 | keewidb | - | |
是 | vecdb | - | |
是 | nat_gateway | - | |
NAT 实例监控丢包率 | 是 | vpc_gw_detect | NAT 网关指标。 |
是 | ckafka | 不支持 broker_ip 维度指标。 | |
是 | tdmq_pulsar | - | |
是 | rocketmq | 指标文档和唯一 ID 对应新指标,使用旧指标的用户建议尽快切换。 | |
是 | rabbitmq | - | |
消息队列 MQTT 版 | 是 | mqtt | - |
是 | lb | - | |
是 | vpngw | - | |
是 | vpnx | - | |
不支持标签 | vpc_net_detect | - | |
私有网络-跨可用区流量 | 是 | sdn_az | 指标不支持1分钟粒度,默认拉取5分钟粒度数据。 |
是 | private_link | - | |
是 | cdn | 不区分地域。仅支持域名维度指标。 | |
是 | ov_cdn | 不区分地域。 | |
是 | cos | 存储相关指标延迟过高(2小时左右),不会保留数据的原始时间戳。存储相关指标不支持1分钟粒度,默认拉取5分钟粒度数据。 | |
是 | dc | 不区分地域。 | |
是 | dcx | 不区分地域。 | |
是 | dcg | 同私有网络/网络连接/专线网关。 | |
是 | lighthouse | - | |
是 | apigw_cloudnative | 默认采集实例维度和公网负载均衡维度指标,如需节点维度指标,请自行添加维度开白配置。实例维度与节点维度的指标名相同,可以通过 monitor_view 标签来区分维度: 实例维度:gateway; 公网负载均衡维度:loadbalancer; 节点维度:node。 | |
是 | nacos | - | |
是 | zookeeper | - | |
是 | ces | 默认采集实例维度指标,如需节点维度指标,请自行添加维度开白配置。可以通过 monitor_view 标签来区分维度: 实例维度:instance; 节点维度:node。 | |
是 | tstream | ||
是 | dlc | 支持内部存储桶、Spark 引擎、Presto 引擎、网关 ID、Spark 作业、引擎维度指标。可以通过 monitor_view 标签来区分维度: 内部存储桶:bucket Spark 引擎:spark_engine Presto 引擎:presto_engine 网关 ID:gateway Spark 作业:spark_job 引擎(包括 Spark 和 Presto 引擎):engine | |
是 | cdwch | - | |
是 | cdwdrs | - | |
是 | dts | 不支持 Kafka 相关维度指标。 | |
是 | vbc | 如需调度队列维度指标,请自行添加维度开白配置。 | |
是 | gaap | - | |
是 | edgeone_l7 | 仅支持【子域名-站点】维度指标。 | |
是 | waf | - | |
是 | cfs | 目前未采集元数据、快照相关指标。 | |
是 | goosefsx | - | |
是 | bwp | - | |
是 | scf_v2 | 默认采集别名维度指标,如需版本维度指标,请自行添加维度开白配置。别名维度与版本维度的指标名相同,可以通过 monitor_view 标签来区分维度: 别名维度:alias。 版本维度:version。 | |
是 | vod | 不区分地域。目前 FluxHitRate、RequestsHitRate、BackOriginBandwidth、BackOriginFlux 四个指标未对外,无法采集。 | |
是 | cls | - | |
是 | ci | - | |
是 | apigateway | 仅支持 API 维度指标。 | |
是 | ti_traintask | - | |
是 | ti_notebook | - | |
是 | ti_model | - |
说明:
为了区分不同云产品的指标,云监控集成对云产品指标名(指标文档中的指标英文名)做了转换。指标页中提供了云监控集成支持采集的指标信息,方便用户直接查看和使用。

跨账号采集
注意:
不支持跨站采集(国内站账号与国际站账号不能互相采集)。
场景:账号 A 跨账号采集 账号 B 的监控数据。
配置填写:
在账号 A 下的 Prometheus 监控服务实例中创建云监控集成。
开启跨账号采集。
本账号角色选择账号 A 创建的自定义角色。
目标账号角色填入账号 B 创建的自定义角色。
目标账号 uin 填入账号 B 的主账号 ID。

简要流程图


自定义角色
账号 A 创建自定义角色
{"version": "2.0","statement": [{"effect": "allow","action": ["sts:AssumeRole"],"resource": ["*"]}]}
注意:
如果需要限制权限,例如只能扮演账号 B 的自定义角色,可以将 resource 修改为 "qcs::cam::uin/[账号 B 主账号 ID]:roleName/[账号 B 自定义角色]"。
2. 在 角色 列表页面,单击新建角色。
3. 在弹出的选择角色载体窗口,选择腾讯云产品服务,进入角色信息填写页面。
4. 勾选云服务器(cvm)作为角色载体,使用案例选择云服务器,单击下一步。
5. 在策略列表内,勾选第1步创建的策略为角色配置策略,单击下一步。
6. 标记角色的标签键和标签值,可不填,单击下一步。
7. 输入您的角色名称,单击完成后即完成自定义角色创建。
账号 B 创建自定义角色
1. 在角色列表页面,单击新建角色。
2. 在弹出的选择角色载体信息窗口,选择腾讯云账户作为角色载体,进入角色信息填写页面。
3. 在输入角色载体信息页面,云账号类型选择其他主账号,账号 ID 填写账号 A 主账号 ID,其它可不填,单击下一步。
4. 在策略列表内,勾选预设策略 ReadOnlyAccess 为角色配置策略,单击下一步。
5. 标记角色的标签键和标签值,可不填,单击下一步。
6. 输入您的角色名称,单击完成后即完成自定义角色创建。
查看监控
前提条件
Prometheus 实例已绑定 Grafana 实例。
操作步骤
1. 登录 Prometheus 监控服务控制台,选择对应 Prometheus 实例进入管理页面。
2. 选择数据采集 > 集成中心,在集成中心页面,找到并单击云监控,选择 Dashboard > Dashboard 操作下的安装/升级 Dashboard,单击安装/升级安装对应的 Grafana Dashboard。
3. 选择已集成,在已集成列表中单击 Grafana 图标即可自动打开云监控集成大盘列表,选择对应云产品大盘,查看实例相关的监控数据,如下图所示:






常见问题
“数据拉取配置”该怎么配置?
若配置为0,Prometheus 会使用当前时间戳,覆盖数据的原始时间戳。
使用场景:保证数据时间戳的实时性,以最大限度保证 Prometheus 能及时发出告警。
若配置为某个大于0的值 x:
只要是大于0的值,Prometheus 就会保留数据的原始时间戳。
使用场景:与云产品控制台监控页的时间戳保持一致。
延迟拉取数据的时间窗口(延迟量等于 x)。
问题背景:为了兼容云产品监控数据上报链路的时延,Prometheus 默认以
(now-固定时延,now)
的时间范围拉取数据。使用场景:若个别产品上报链路时延过大,此处需设置 x,使得拉取数据的时间范围变为:
(now-固定时延-x,now-x)
,以保证在这个延迟的窗口内,能更大限度地拉取到数据。数据偶尔会产生1-2分钟的断点?
数据拉取配置为0:一般不会产生断点。产生断点时请 提交工单。
数据拉取配置非0:查看集成日志,如果没有明显报错,则可能是延迟波动导致的断点。此时可观察指标正常时的延迟,将数据拉取配置重新设置为该延迟大小,例如3分钟的延迟,就设置为180,如果断点情况未能改善,请 提交工单。
注意:
重新设置数据拉取配置会影响当前集成中的所有云产品,如果只是个别云产品数据有断点,建议单独新建一个集成。
延迟波动:部分云产品监控数据,其延迟并不是稳定的。当延迟突然变低时,意味着一分钟内落盘了多个数据点,而云监控集成每一分钟只会采集最新的数据点,这就会导致断点。
Targets 显示有问题?
无采集对象:刚创建的集成需要等待几分钟才能展示正确的 targets。
(1/2)down:集成采用滚动更新,在新 pod 成功运行之前会继续采集旧 pod,期间就会显示两个 targets。
某个云产品没采集到指标?
1. 在已集成下,查看如下信息:
查看实例信息是否含有该云产品,没有则说明未勾选该云产品。
确定 Targets 是 up 状态。
查看指标明细中是否有该云产品指标,若有则等待一分钟后再查询。

2. 确定所选地域下有该云产品实例。
3. 查看是否配置了实例 ID 过滤或云标签过滤,确定对应配置能获取到该云产品实例。
4. 查看是否配置了 Metric Relabel 配置,确定对应配置没有过滤该云产品指标。
如何重启集成/更新集成版本
1. 在已集成下,单击需要操作的集成名称,进入集成编辑页。

2. 直接单击保存

更新动态
云监控集成每次保存,都会将集成更新为最新版本。下面是集成每次版本更新的主要时间节点与内容,可以用来评估集成更新的影响。
时间 | 更新内容 |
2025年6月 | 修复消息队列 RocketMQ 版在特殊情况下不采集部分 topic 监控数据的问题。 |
2025年5月 | Elasticsearch 支持节点维度指标,新增标签 monitor_view;TI-ONE 新增 gpu、gpu_type、app_id、sub_uin、sub_uin_name 标签。 注意:gpu 表示 GPU 卡资源,单位为1单位的 gpu_type;gpu_type 表示 GPU 类型;存量 Elasticsearch 和 TI-ONE 实例更新后会产生新时间线。 |
2025年4月 | 支持数据湖计算 DLC、数据加速器 GooseFSx;负载均衡(内网)支持后端服务器维度、清理重复标签 vpcid、loadbalancerid、loadbalancerport;云服务器新增标签 gpu_type,仅影响 GPU 云服务器。 注意:gpu_type 表示 GPU 类型,存量 GPU 云服务器实例更新后会产生新时间线;存量负载均衡(内网)实例更新后会产生新时间线。 |
2025年3月 | 支持 NAT 实例监控丢包率;云服务器支持 HCCPNV6e、HCCPNV5b、HCCSA4机型的 vRDMA 指标;云联网支持网络实例维度。 |
2025年2月 | 云数据库 Tendis 新增标签 node_zone_id。 注意:node_zone_id 表示节点可用区 ID,存量实例更新后会产生新时间线。 |
2025年1月 | 支持数据万象、消息队列 MQTT 版;文件存储支持 Turbo 文件系统指标。 注意:文件系统新增标签 protocol,表示文件系统协议,存量实例更新后会产生新时间线。 |
2024年12月 | 云联网支持服务等级维度和调度队列维度。 |
2024年11月 | 支持流计算 Oceanus、腾讯云数据仓库 TCHouse-C。 |
2024年10月 | 云数据库 MongoDB 支持 mongos 节点维度。 |
2024年9月 | 支持向量数据库;云产品全量支持采集云标签和云标签过滤;支持跨账号采集;负载均衡支持转发规则域名维度。 |
2024年8月 | 支持私有网络-跨可用区流量、私有网络-私有连接;COS 支持5分钟粒度的存储相关指标;TDSQL-C MySQL 版支持集群 ID 过滤。 |
2024年7月 | 支持消息队列 Pulsar 版;云函数支持版本维度。 注意:云函数新增固定标签 monitor_view,存量实例更新后会产生新时间线。 |
2024年6月 | 支持负载均衡(七层独占集群)、腾讯云数据仓库 TCHouse-D、云服务器(内网);负载均衡(内网)支持监听器维度;云原生 API 网关支持公网负载均衡维度。 注意:负载均衡(内网)新增固定标签 monitor_view,存量实例更新后会产生新时间线。 |
2024年5月 | 支持云数据库 KeeWiDB;负载均衡(公网)支持后端服务器维度。 |
2024年3月 | 支持云原生 API 网关、消息队列 RabbitMQ 版、EdgeOne(七层);支持配置云标签键替换和云标签键转换规则。 |
2023年12月 | 支持消息队列 RocketMQ 版 v5、CTSDB(InfluxDB 版)、TI-ONE、云数据库 Tendis、弹性公网 Ipv6。 |
2023年11月 | 支持网络探测;负载均衡(公网)支持监听器维度、云数据库 MySQL 支持代理节点维度。 |
2023年9月 | 支持日志服务、API 网关、负载均衡(四层独占集群)。 |
2023年8月 | 支持 CDN(国外域名)、云点播、云函数(别名)、消息队列 RocketMQ 版。 |
2023年7月 | 支持采集域名型负载均衡(公网);支持采集 TDSQL-C MySQL 版云标签。 |
2023年6月 | 支持共享带宽包。云数据库 Redis(内存版)Redis 节点维度添加节点类型标签。 |
2023年5月 | 支持采集消息队列 CKafka 版云标签。 |
2023年4月 | 支持文件存储。 |
2023年3月 | 支持云硬盘。 |
2023年2月 | 支持负载均衡(内网)、Web 应用防火墙。 |
2022年11月 | 支持全球应用加速、云联网、数据传输服务。 |
2022年9月 | 支持专线网关;支持采集云产品标签。 |
2022年7月 | 支持 Zookeeper、Nacos、COS、CDN(国内域名)。 |
2022年6月 | 云监控集成上线。 |