功能简介
文件存储监控用于对云计算平台上的文件系统资源和使用状态进行实时监测、收集和分析,以确保稳定性、可用性和安全性。通过配置风险告警,可以及时发现并解决可能存在的问题。本文档概述了文件存储提供的监控与告警功能,更多详细内容可参见 腾讯云可观测平台产品文档。
应用场景
存储性能监控
实时跟踪和监测存储性能指标,例如读写带宽、读写延时、读写 IOPS 等,有助于发现性能瓶颈、优化资源配置以提高系统性能,并确保服务能够正常运行。
故障和错误监控
配置监控告警,自动检测异常情况,及时触发警报,协助运维团队快速响应并解决问题,最大限度确保服务稳定可用。
资源配置优化
实时统计文件系统存储容量、使用率等,帮助企业有效管理和优化云资源的使用,辅助进行合理调配,避免资源浪费和不必要的成本开销。
监控项及配置建议
预设告警
用户可一键开启、快速应用文件存储预设告警,自动覆盖当前及未来新增的文件存储实例,同时支持修改预设告警策略,使其更贴近业务实际场景。详情参见 腾讯云可观测平台-预设告警策略。文件存储目前支持的预设告警策略如下:
策略名称/ID | 策略类型 | 告警规则 |
CFS-实例预设告警 | 文件存储 | 容量使用率 > 95%,统计粒度1分钟,连续5次满足条件则每1小时告警一次 客户端健康检测成功率 < 80%,统计粒度1分钟,连续5次满足条件则每1小时告警一次 读取延时 > 200ms,统计粒度1分钟,连续5次满足条件则每1小时告警一次 写入延时 > 200ms,统计粒度1分钟,连续5次满足条件则每1小时告警一次 |
指标告警
读统计说明
监控项 | 英文名称 | 单位 | 描述 | 配置建议 |
读取带宽 | DataReadIOBytes | KB/s | 每秒从文件系统读取的数据量 | 按需配置 |
读取 IOPS | DataReadIOPS | Count | 每秒执行的读写操作总次数 | 按需配置 |
读取延时 | DataReadIoLatency | ms | 从文件系统读取数据的延迟 | 通用型:静态阈值,统计粒度1分钟,超过50ms,持续检测3个数据点,每30分钟告警一次 Turbo型:静态阈值,统计粒度1分钟,超过25ms,持续检测3个数据点,每30分钟告警一次 |
写统计说明
监控项 | 英文名称 | 单位 | 描述 | 配置建议 |
写入带宽 | DataWriteIOBytes | KB/s | 每秒向文件系统写入的数据量 | 按需配置 |
写入 IOPS | DataWriteIOPS | Count | 每秒执行的写入操作次数 | 按需配置 |
写入延时 | DataWriteIoLatency | ms | 从文件系统写入数据的延迟 | 通用型:静态阈值,统计粒度1分钟,超过50ms,持续检测3个数据点,每30分钟告警一次 Turbo型:静态阈值,统计粒度1分钟,超过25ms,持续检测3个数据点,每30分钟告警一次 |
统计信息说明
监控项 | 英文名称 | 单位 | 描述 | 配置建议 |
文件系统存储量 | Storage | GB | 文件系统存储量 | 按需配置 |
元数据 OPS | MetaIoCount | Count/s | 每秒访问元数据的操作次数 | 按需配置 |
已链接客户端数量 | ClientCount | Count | 已链接文件系统的客户端数量 | 按需配置。通用型客户端数量上限为1000台,Turbo 型客户端数量上限为2000台 |
客户端检测健康成功率 | ClientDetectionSuccessRate | % | 客户端检测状态健康的成功率 | 静态阈值,统计粒度1分钟,低于90%,持续检测3个数据点,每30分钟告警一次 |
容量使用率 | StorageUsage | % | 已使用的存储容量与总可用容量的比例 | 静态阈值,统计粒度1分钟,高于95%,持续检测3个数据点,每30分钟告警一次 |
inode 使用率 | InodeUsage | % | 已分配的 inode(索引节点)数量与总 inode 数量的比例 | 静态阈值,统计粒度1分钟,高于90%,持续检测3个数据点,每30分钟告警一次 |
监控项 | 英文名称 | 单位 | 描述 | 配置建议 |
客户端读带宽 | ClientReadIoByte | KB/s | 客户端每秒从文件系统读取的数据量 | 按需配置 |
客户端写带宽 | ClientWriteIoBytes | KB/s | 客户端每秒向文件系统写入的数据量 | 按需配置 |
事件告警
事件告警是基于特定事件或条件发生时产生的告警。由客户云上购买和使用的云文件存储产生的监控事件具体包括:
事件中文名 | 事件英文名 | 事件类型 | 从属维度 | 有无恢复概念 | 事件描述 | 处理方法与建议 |
CFS 访问抖动 | TurboIOHang | 异常事件 | 云文件存储实例维度 | 有 | 文件系统发生 IO 抖动,可能导致读写无响应,已启动恢复。 | 建议避免在 IO 抖动期间进行大规模数据读写,恢复后再推进业务。 |
CFS 实例性能超限 | TurboPerformanceLimit | 异常事件 | 云文件存储实例维度 | 有 | 存储性能已超当前购买容量的带宽极限,业务响应延时上升。 | |
CFS 容量利用率过高 | TurboHighCapacityUseRate | 异常事件 | 云文件存储实例维度 | 有 | 文件系统使用容量接近购买总容量,存在写入失败风险。 | |
CFS元数据容量超限 | TurboMetaCapacityLimit | 异常事件 | 云文件存储实例维度 | 有 | 目录数接近产品规格上限,存在目录写入失败、文件系统整体只读风险。 | 建议尽快清理目录,并优化使用方式。通常由不合理的目录结构引起,例如存在大量一个目录下仅有一个文件的情况。您可对业务进行改造,保证目录和文件数之比在1:100 - 1:10000之间。详情请参见 CFS Turbo 实践指南。 |
Turbo型-元数据性能超限 | TurboMetaPerformanceLimit | 异常事件 | 云文件存储实例维度 | 有 | 文件系统的存储元数据性能已超过当前额定的产品性能规格极限,业务响应延时上升。 | 建议您根据业务实际情况,采取控制业务访问量、新增 Turbo 实例分担业务压力等方案进行缓解。 |
集群接近于只读状态 | ClusterNearReadOnly | 异常事件 | 云文件存储实例维度 | 有 | 检测到当前集群存储空间严重不足,即将触发只读保护模式,可能导致无法写入新文件或扩展存储。 | 建议暂停业务写入,尽快操作扩容或清理冗余数据释放存储空间。 |
客户端端口未开启 | TurboClientPortUnreachable | 异常事件 | 云文件存储实例维度 | 有 | 客户端未放通特定端口,阻碍了流量出入 Turbo 文件系统,可能导致访问故障或挂载异常。 | 建议在控制台上修改云服务器安全组规则,需要放通对 CFS Turbo 服务端网络所有 IP 对应的端口号 512 - 1023 的出+入。详情请参见 在 Linux 客户端上使用 CFS Turbo 文件系统。 |
目录容量接近上限 | DirectoryQuotaLimit | 异常事件 | 云文件存储实例维度 | 有 | 指定目录的已使用容量达到目录容量配额上限的85%,存在触达上限而写入失败的风险。 | |
目录文件数接近上限 | DirectoryFileLimit | 异常事件 | 云文件存储实例维度 | 有 | 指定目录的文件数达到目录文件数配额上限的85%,存在触达上限而写入失败的风险。 | |
客户端频繁被剔除 | ClientFreqEvicted | 异常事件 | 云文件存储实例维度 | 有 | 后台探测到该实例关联的客户端被频繁剔除,可能导致访问该实例出现卡顿(分钟级)。 | 建议排查是否存在频繁强制关机、强制卸载挂载点等操作,尽量降低此类操作触发频率。 |
客户端挂载数超限 | ClientDeviceMountLimit | 异常事件 | 云文件存储实例维度 | 有 | 后台探测到该实例关联的客户端存在重复多次挂载的异常情况,可能导致扩容失效、无法挂载新实例等风险。 | |
大文件(100GB以上)写入失败风险 | OversizedFileWriteRisk | 异常事件 | 云文件存储实例维度 | 有 | 当前实例存在存储负载分布不均的情况,若继续执行大文件(100GB 以上)写入操作,可能导致因目标存储单元空间不足而写入失败。 |