HDFS 文件存储分析

最近更新时间:2024-05-16 11:05:51

我的收藏

功能介绍

基于集群创建的内置 NameService 存储数据,支持查看 T-1 天采集时间 HDFS 文件存储的总文件、总存储量、分布信息及近期趋势情况以及大文件、小文件的 top 目录列表,可自定义采集分析文件路径范围,也可导出目录作为治理参考信息。

操作步骤

1. 登录 EMR 控制台,在集群列表中单击对应的集群 ID/名称进入集群详情页。
2. 在集群详情页中单击集群服务,然后选择 HDFS 组件右上角操作 >文件存储分析,提供基于存储在 HDFS 上截至上一次采集时间点的相关文件及目录信息。
3. 统计视图
3.1 采集目录默认为全量(root),可自定义采集分析路径范围,自定义范围适用于文件分析和文件导出功能。
3.2 可以查看 HDFS 存储的总文件数量、总存储量的日增量及日环比量。
3.3 参照空文件(=0),小文件(<=2M)、其他(2M<文件存储量< 128M)及大文件(>=128M)定义提供文件数量分布和文件存储量分布视图。



4. 通过视图直观查看各类文件数量和存储量的近期历史变化趋势。

5. 查询 DayT-1 采集时间点 Top1000小文件/大文件的相关维度信息,提供文件名称、路径、用户组、所属用户、大小、最近一次访问时间等信息查询及下载。

风险说明
文件存储分析依赖的分析数据将于北京时间每天14:00开始采集。
1. 文件存储分析涉及对备份 fsimage 文件采集分析,该分析影响本机内存使用增加(最大增幅4G),若集群内存使用机器总占比连续高位时,可 工单反馈 关闭该功能。
2. HA 集群该分析功能执行在 Standby Master 节点,非 HA 集群该分析功能执行在 Master 节点。