功能介绍

最近更新时间:2024-11-22 16:09:42

我的收藏

功能简介

文件存储监控用于对云计算平台上的文件系统资源和使用状态进行实时监测、收集和分析,以确保稳定性、可用性和安全性。通过配置风险告警,可以及时发现并解决可能存在的问题。 本文档概述为文件存储提供监控与告警功能,更多详细内容可参见 腾讯云可观测平台产品文档

应用场景

存储性能监控

实时跟踪和监测存储性能指标,例如读写带宽、读写延时、读写 IOPS 等。这有助于发现性能瓶颈、优化资源配置以提高系统性能,并确保服务能够正常运行。

故障和错误监控

配置监控告警,自动检测异常情况,及时触发警报,协助运维团队快速响应并解决问题,最大限度确保服务稳定可用。

资源配置优化

实时统计文件系统存储容量、使用率等,帮助企业有效管理和优化云资源的使用,辅助进行合理调配,避免资源浪费和不必要的成本开销。

监控项及配置建议

指标告警
事件告警

统计信息说明

监控项
英文名称
单位
描述
配置建议
文件系统存储量
Storage
GB
文件系统存储量
按需配置
元数据OPS
MetaIoCount
Count/s
每秒访问元数据的操作次数
按需配置
已链接客户端数量
ClientCount
Count
已链接文件系统的客户端数量
按需配置。通用型客户端数量上限为1000台,Turbo型客户端数量上限为2000台
客户端检测健康成功率
ClientDetectionSuccessRate
%
客户端检测状态健康的成功率
静态阈值,统计粒度1分钟,低于90%,持续检测3个数据点,每30分钟告警一次
容量使用率
StorageUsage
%
已使用的存储容量与总可用容量的比例
静态阈值,统计粒度1分钟,高于95%,持续检测3个数据点,每30分钟告警一次
inode使用率
InodeUsage
%
已分配的inode(索引节点)数量与总inode数量的比例
静态阈值,统计粒度1分钟,低于90%,持续检测3个数据点,每30分钟告警一次

读统计说明

监控项
英文名称
单位
描述
配置建议
读取带宽
DataReadIOBytes
KB/s
每秒从文件系统读取的数据量
按需配置
读取 IOPS
DataReadIOPS
Count
每秒执行的读写操作总次数
按需配置
读取延时
DataReadIoLatency
ms
从文件系统读取数据的延迟
通用型:静态阈值,统计粒度1分钟,超过50ms,持续检测3个数据点,每30分钟告警一次
Turbo型:静态阈值,统计粒度1分钟,超过25ms,持续检测3个数据点,每30分钟告警一次

写统计说明

监控项
英文名称
单位
描述
配置建议
写入带宽
DataWriteIOBytes
KB/s
每秒向文件系统写入的数据量
按需配置
写入 IOPS
DataWriteIOPS
Count
每秒执行的写入操作次数
按需配置
写入延时
DataWriteIoLatency
ms
从文件系统写入数据的延迟
通用型:静态阈值,统计粒度1分钟,超过50ms,持续检测3个数据点,每30分钟告警一次
Turbo型:静态阈值,统计粒度1分钟,超过25ms,持续检测3个数据点,每30分钟告警一次
事件告警是基于特定事件或条件发生时产生的告警,由客户云上购买和使用的云文件存储产生的监控事件包括:
事件中文名
事件英文名
事件类型
从属维度
有无恢复概念
事件描述
处理方法与建议
CFS 实例性能超限
TurboPerformanceLimit
异常事件
云文件存储实例维度
存储性能已超当前购买容量的带宽极限,业务响应延时上升。
通用型文件系统将自动扩容,Turbo型文件系统需在控制台手动扩容。
CFS 容量利用率过高
TurboHighCapacityUseRate
异常事件
云文件存储实例维度
容量利用率超过90%,业务相应延时上升。
通用型文件系统将自动扩容,Turbo型文件系统需在控制台手动扩容。
CFS 访问抖动
TurboIOHang
异常事件
云文件存储实例维度
文件系统发生IO抖动,可能导致读写无响应,已启动恢复。
建议避免在IO抖动期间进行大规模数据读写,恢复后再推进业务。
CFS 元数据容量超限
TurboMetaCapacityLimit
异常事件
云文件存储实例维度
目录数量触及产品规格上限,可能有目录写入失败风险,造成文件系统只读。
建议尽快清理目录,优化目录结构,保证目录和文件数之比在1:100-1:10000之间。更多信息可参考 Turbo 目录管理
CFS 目录配额超限
DirectoryQuotaLimit
异常事件
云文件存储实例维度
目录配额接近上限 ,请及时关注并处理
建议您尽快在控制台上增加对应的配额,或清理数据