功能介绍

最近更新时间:2025-12-25 14:36:51

我的收藏

功能简介

文件存储监控用于对云计算平台上的文件系统资源和使用状态进行实时监测、收集和分析,以确保稳定性、可用性和安全性。通过配置风险告警,可以及时发现并解决可能存在的问题。本文档概述了文件存储提供的监控与告警功能,更多详细内容可参见 腾讯云可观测平台产品文档

应用场景

存储性能监控

实时跟踪和监测存储性能指标,例如读写带宽、读写延时、读写 IOPS 等,有助于发现性能瓶颈、优化资源配置以提高系统性能,并确保服务能够正常运行。

故障和错误监控

配置监控告警,自动检测异常情况,及时触发警报,协助运维团队快速响应并解决问题,最大限度确保服务稳定可用。

资源配置优化

实时统计文件系统存储容量、使用率等,帮助企业有效管理和优化云资源的使用,辅助进行合理调配,避免资源浪费和不必要的成本开销。

监控项及配置建议

预设告警

用户可一键开启、快速应用文件存储预设告警,自动覆盖当前及未来新增的文件存储实例,同时支持修改预设告警策略,使其更贴近业务实际场景。详情参见 腾讯云可观测平台-预设告警策略。文件存储目前支持的预设告警策略如下:
策略名称/ID
策略类型
告警规则
CFS-实例预设告警
文件存储
容量使用率 > 95%,统计粒度1分钟,连续5次满足条件则每1小时告警一次
客户端健康检测成功率 < 80%,统计粒度1分钟,连续5次满足条件则每1小时告警一次
读取延时 > 200ms,统计粒度1分钟,连续5次满足条件则每1小时告警一次
写入延时 > 200ms,统计粒度1分钟,连续5次满足条件则每1小时告警一次

指标告警

对于单个文件存储实例,系统实时跟踪和监测以下三类存储性能指标,您可以参考 操作指南,查看相应监控数据,并参考配置建议设置指标告警。
读统计说明
监控项
英文名称
单位
描述
配置建议
读取带宽
DataReadIOBytes
KB/s
每秒从文件系统读取的数据量
按需配置
读取 IOPS
DataReadIOPS
Count
每秒执行的读写操作总次数
按需配置
读取延时
DataReadIoLatency
ms
从文件系统读取数据的延迟
通用型:静态阈值,统计粒度1分钟,超过50ms,持续检测3个数据点,每30分钟告警一次
Turbo型:静态阈值,统计粒度1分钟,超过25ms,持续检测3个数据点,每30分钟告警一次
写统计说明
监控项
英文名称
单位
描述
配置建议
写入带宽
DataWriteIOBytes
KB/s
每秒向文件系统写入的数据量
按需配置
写入 IOPS
DataWriteIOPS
Count
每秒执行的写入操作次数
按需配置
写入延时
DataWriteIoLatency
ms
从文件系统写入数据的延迟
通用型:静态阈值,统计粒度1分钟,超过50ms,持续检测3个数据点,每30分钟告警一次
Turbo型:静态阈值,统计粒度1分钟,超过25ms,持续检测3个数据点,每30分钟告警一次
统计信息说明
监控项
英文名称
单位
描述
配置建议
文件系统存储量
Storage
GB
文件系统存储量
按需配置
元数据 OPS
MetaIoCount
Count/s
每秒访问元数据的操作次数
按需配置
已链接客户端数量
ClientCount
Count
已链接文件系统的客户端数量
按需配置。通用型客户端数量上限为1000台,Turbo 型客户端数量上限为2000台
客户端检测健康成功率
ClientDetectionSuccessRate
%
客户端检测状态健康的成功率
静态阈值,统计粒度1分钟,低于90%,持续检测3个数据点,每30分钟告警一次
容量使用率
StorageUsage
%
已使用的存储容量与总可用容量的比例
静态阈值,统计粒度1分钟,高于95%,持续检测3个数据点,每30分钟告警一次
inode 使用率
InodeUsage
%
已分配的 inode(索引节点)数量与总 inode 数量的比例
静态阈值,统计粒度1分钟,高于90%,持续检测3个数据点,每30分钟告警一次
对于挂载 Turbo 文件存储的客户端,系统实时跟踪和监测客户端读带宽与客户端写带宽,您可以参见 操作指南,查看相应监控数据,并参考配置建议设置指标告警。
监控项
英文名称
单位
描述
配置建议
客户端读带宽
ClientReadIoByte
KB/s
客户端每秒从文件系统读取的数据量
按需配置
客户端写带宽
ClientWriteIoBytes
KB/s
客户端每秒向文件系统写入的数据量
按需配置

事件告警

说明:
目前仅 Turbo 文件系统和吞吐型文件系统支持用户手动配置事件告警,详情参见 操作指南
如果下列处理方法并未生效,或异常事件持续存在,建议您 提交工单 联系腾讯云工程师协助处理。
事件告警是基于特定事件或条件发生时产生的告警。由客户云上购买和使用的云文件存储产生的监控事件具体包括:
事件中文名
事件英文名
事件类型
从属维度
有无恢复概念
事件描述
处理方法与建议
CFS 访问抖动
TurboIOHang
异常事件
云文件存储实例维度
文件系统发生 IO 抖动,可能导致读写无响应,已启动恢复。
建议避免在 IO 抖动期间进行大规模数据读写,恢复后再推进业务。
CFS 实例性能超限
TurboPerformanceLimit
异常事件
云文件存储实例维度
存储性能已超当前购买容量的带宽极限,业务响应延时上升。
建议尽快在控制台上操作扩容,或配置自动扩容策略,详情请参见 文件系统扩容
CFS 容量利用率过高
TurboHighCapacityUseRate
异常事件
云文件存储实例维度
文件系统使用容量接近购买总容量,存在写入失败风险。
建议尽快在控制台上操作扩容,或配置自动扩容策略,详情请参见 文件系统扩容
CFS元数据容量超限
TurboMetaCapacityLimit
异常事件
云文件存储实例维度
目录数接近产品规格上限,存在目录写入失败、文件系统整体只读风险。
建议尽快清理目录,并优化使用方式。通常由不合理的目录结构引起,例如存在大量一个目录下仅有一个文件的情况。您可对业务进行改造,保证目录和文件数之比在1:100 - 1:10000之间。详情请参见 CFS Turbo 实践指南
Turbo型-元数据性能超限
TurboMetaPerformanceLimit
异常事件
云文件存储实例维度
文件系统的存储元数据性能已超过当前额定的产品性能规格极限,业务响应延时上升。
建议您根据业务实际情况,采取控制业务访问量、新增 Turbo 实例分担业务压力等方案进行缓解。
集群接近于只读状态
ClusterNearReadOnly
异常事件
云文件存储实例维度
检测到当前集群存储空间严重不足,即将触发只读保护模式,可能导致无法写入新文件或扩展存储。
建议暂停业务写入,尽快操作扩容或清理冗余数据释放存储空间。
客户端端口未开启
TurboClientPortUnreachable
异常事件
云文件存储实例维度
客户端未放通特定端口,阻碍了流量出入 Turbo 文件系统,可能导致访问故障或挂载异常。
建议在控制台上修改云服务器安全组规则,需要放通对 CFS Turbo 服务端网络所有 IP 对应的端口号 512 - 1023 的出+入。详情请参见 在 Linux 客户端上使用 CFS Turbo 文件系统
目录容量接近上限
DirectoryQuotaLimit
异常事件
云文件存储实例维度
指定目录的已使用容量达到目录容量配额上限的85%,存在触达上限而写入失败的风险。
建议尽快在控制台上增加对应目录的容量配额,或对不必要的数据进行清理。详情请参见 目录配额
目录文件数接近上限
DirectoryFileLimit
异常事件
云文件存储实例维度
指定目录的文件数达到目录文件数配额上限的85%,存在触达上限而写入失败的风险。
建议尽快在控制台上增加对应目录下文件数配额,或对不必要的数据进行清理。详情请参见 目录配额
客户端频繁被剔除
ClientFreqEvicted
异常事件
云文件存储实例维度
后台探测到该实例关联的客户端被频繁剔除,可能导致访问该实例出现卡顿(分钟级)。
建议排查是否存在频繁强制关机、强制卸载挂载点等操作,尽量降低此类操作触发频率。
客户端挂载数超限
ClientDeviceMountLimit
异常事件
云文件存储实例维度
后台探测到该实例关联的客户端存在重复多次挂载的异常情况,可能导致扩容失效、无法挂载新实例等风险。
建议您排查客户端挂载姿势是否存在异常,尽量减少对同一文件系统的重复多次挂载。如需多次挂载,请参见 CFS Turbo 实践指南 配置 bind 方式挂载。
大文件(100GB以上)写入失败风险
OversizedFileWriteRisk
异常事件
云文件存储实例维度

当前实例存在存储负载分布不均的情况,若继续执行大文件(100GB 以上)写入操作,可能导致因目标存储单元空间不足而写入失败。
建议您清理实例容量,或通过 提交工单 联系腾讯云工程师,在指定的路径下写入大文件,避免业务受到影响。