Hive 数据表分析

最近更新时间:2023-12-14 14:53:11

我的收藏

功能介绍

提供基于数据库、数据表存储量相关的数据分布信息和趋势信息。
按照数据表的最后一次访问时间提供其分布情况,作为冷热数据的分布参考。
数据表级别的小文件占比、表内分区级别的数据量可排查小文件及分区数据倾斜等问题。

操作步骤

1. 登录 EMR 控制台,在集群列表中单击对应的集群 ID/名称进入集群详情页。
2. 在集群详情页中单击集群服务,然后选择 Hive 组件右上角操作 >数据表分析,提供基于 Hive MetaStore 采集的截至上一次采集时间点的相关数据表及数据信息。
3. 统计视图
3.1 可以查看 Hive 数据库、总表数、总存储量指标及相关指标的日增和日环比信息。
3.2 参照数据表的最后一次访问时间查看数据表分布情况可作为冷热数据的分布参考。
说明:
时间区间
说明
在3个月内
最近一次访问时间 < 3个月
3个月~1年
3个月 ≤ 最近一次访问时间 ≤ 1年
1年~5年
1年 < 最近一次访问时间 ≤ 5年
5年以上
最近一次访问时间 > 5年
其他
COS/CHDFS 侧未开启采集
未采集到存储数据的最近一次访问时间

4. 趋势视图提供数据库数量、表数量、表存储量的历史增长趋势,其中表数量中提供了存在小文件数据表维度,可观察在小文件数据表的分布、增长情况。

5. 可查看数据表的所属库、存储量、文件量、小文件占比及表的分区情况,文件存储量和小文件占比为维度可直观反应 Hive 小文件问题情况。


6. 单击操作查看分区,可查看别分区名、分区大小、文件总数等维度信息,通过分区大小和文件总数可感知分区的倾斜情况及文件量信息。


风险说明
数据表分析依赖的分析数据将于北京时间每天14:00开始采集。
1. 主要采集 HMS 库表、分区元数据及 NameNode 目录信息,此操作将影响 HMS、NameNode 请求量微增,若请求量持续突破负载瓶颈可 工单反馈 关闭该功能。
2. HMS 及 NameNode 数据采集仅涉及元数据信息不涉及具体业务数据。