Spark 查询管理

最近更新时间:2024-06-19 17:52:21

我的收藏

功能介绍

Spark 查询管理提供查询概览、查询列表,支持申请开通 Spark SQL 洞察。帮助多维度感知查询分布情况,查看查询列表多维数据信息。另支持 Spark SQL 的查询洞察功能,多种洞察项可有效帮助分析查询的潜在问题。
注意
Spark 的查询洞察为白名单功能,请通过 提交工单 开通。开通说明:需评估,存在升级包重启 Spark 服务等情况。

操作步骤

1. 登录 EMR 控制台,在集群列表中单击对应的集群 ID/名称进入集群详情页。
2. 在集群详情页中单击集群服务目录,然后选择 Spark 服务名称或 Spark 服务右上角操作 > 查询管理,查询概览支持多维指标的分位值查询分布观测,同时通过查询列表筛选过滤可进行查询周期中各阶段指标的多维分析,阶段指标如:执行时长、扫描分区数/总行数/总数据量、serverURL、输出总行数/总文件数/分区数/总数据量、执行状态等。

3. 单击应用 ID 可跳转至 Yarn 应用管理并选中 Spark 查询所关联的 Yarn 作业集。
4. 单击详情可查看查询语句、查询计划等信息。
5. 开通查询洞察功能,在查询操作列 > 洞察可查看洞察异常信息及洞察结果建议。
洞察结果
说明
ABNORMAL
洞察异常
OK
洞察正常
UNKNOWN
未洞察,查询满足降级策略忽略采集时的洞察结果,降级策略如下注意
注意: 为保障集群稳定运行,Spark 查询洞察功能采集策略满足以下任一规则将被降级忽略采集:
1. 运行时长小于1min的查询将被降级忽略。
2. 采集时子任务大于3W或 Stage 数大于1000的查询将被降级忽略。
3. 延迟采集时间大于24h的查询将被降级忽略。
查询洞察采集降级策略的相关参数可通过 提交工单 评估修改。
警告:
Spark 查询洞察会对 Spark History 相关应用数据进行分析,如若发现上述服务请求量持续突破负载瓶颈可 提交工单 关闭该功能。