存储洞察

最近更新时间:2024-09-05 09:48:11

我的收藏

功能介绍

HDFS 文件分析、存算分离文件分析及 Hive 数据表分析存储洞察是大数据环境中关键的功能,旨在优化数据存储和处理效率。可帮助用户更好地理解和管理存储在 Hadoop 分布式文件系统(HDFS)和 Hive 数据仓库中的数据。
面向空、小、大文件及数据表、冷温热数据表的高效洞察可以帮助快速获取异常数据存储信息并方便进一步有效治理。

操作步骤

1. 登录 EMR 控制台,在集群列表中单击对应的集群 ID/名称进入集群详情页。
2. 在集群详情页中选择洞察管理> 存储洞察可查看文件存储分析和 Hive 数据表的分析洞察及分布情况,可以查看相关大小文件及冷热数据表的分布信息,洞察的明细信息和相关优化建议。
3. 文件存储页面支持 HDFS 或 COS 文件识别的存储量或占比阈值配置,也支持数据冷热时间设置。您可根据业务场景属性做灵活配置,配置值会作为存储洞察的异常预警参考值。
4. 通过洞察管理>配置与导出可配置相关存储桶的清单功能,同时可以配置存储洞察的洞察信息导出到用户存储桶中方便治理使用。
警告:
数据表分析依赖的分析数据将于北京时间每天14:00开始采集。
1. 主要采集 HMS 库表、分区元数据及 NameNode 目录信息,此操作将影响 HMS、NameNode 请求量微增,若请求量持续突破负载瓶颈可 工单反馈 关闭该功能。
2. HMS 及 NameNode 数据采集仅涉及元数据信息不涉及具体业务数据。
3. Cos 存储桶的文件分析需要用户开通对应存储桶的清单功能,文件分析及会对 HMS 数据表关联的存储路径进行采集分析。