有奖捉虫:办公协同&微信生态&物联网文档专题 HOT
服务列表展示了集群已安装的服务,以及服务的健康状态、配置状态、版本信息等。同时提供了服务便捷运维管理工具,包含通用的服务操作以及部分服务特有的指令类运维操作。

服务健康状态

服务健康状态展示当前服务的运行状态是否正常,由各角色的健康状态聚合而成。

服务健康状态主要4种类型,包含良好、存在隐患、不可用、未知或未探测,不同状态类型对应不同颜色展示。
组件健康状态
健康状态说明
状态聚合规则
绿色:良好
服务运行正常。
全部角色实例健康状态是良好。
橙色:存在隐患
服务可用,部分角色实例健康状态为不可用或存在隐患,需关注处理。
该组件某角色的部分实例健康状态为不可用或存在隐患。例如,HDFS 有1个 NameNode 角色实例和2个 DataNode 角色实例,其中1个 DataNode 角色实例健康状态为不可用,另1个 DataNode 角色实例和 NameNode 角色实例健康状态为良好,HDFS 健康状态为存在隐患。
红色:不可用
服务不可用,某角色的全部实例健康状态不可用,请及时处理。
该组件某角色的全部实例健康状态不可用。例如,HDFS 有1个 NameNode 角色实例和2个 DataNode 角色实例,其中2个 DataNode 角色实例健康状态为不可用,1个 NameNode 角色实例的健康状态为良好,HDFS 健康状态为不可用。
灰色:未知或未探测
服务健康状态未知或未探测。无进程组件无健康状态为未探测,有进程组件如进入维护模式或操作状态已停止为未探测;有进程组件如无法正确获取角色实例健康状态信息为未知。如排查业务无问题,无需关注。
1. 该组件全部角色实例健康状态非存在隐患或不可用的角色,且至少有一个角色实例健康状态为未知。例如,HDFS 有1个 NameNode 角色实例和2个 DataNode 角色实例,其中1个 DataNode 角色实例健康状态为未知,另1个 DataNode 角色实例和 NameNode 角色实例健康状态为良好,HDFS 健康状态为未知;
2. 该服务全部角色实例健康状态为未探测。当服务全部角色实例进入维护模式或操作状态已停止时,其健康状态不做探测。
3. 该组件无进程,则其健康状态不做探测,如 Iceberg、Hudi、Flink 等。

服务操作

通用的服务操作包含服务重启、启动、暂停、进入/退出维护模式、查看端口;指令类服务操作包含HDFS NameNode 主备切换、HDFS 数据均衡、YARN ResourceManager 主备切换、YARN 刷新队列等,操作说明如下:
服务操作
说明
HDFS NameNode 主备切换
简称 NN 主备切换,将当前处于 Active 状态的 NameNode 转成 StandBy 状态,并将原先处于 StandBy 状态的 NameNode 转成 Active 状态。
HDFS 数据均衡
通常需要在有新 DataNode 加入时执行,本操作会使数据分布均匀,避免热点问题,使集群读写负载更均衡。
HDFS 管理状态切换
仅支持切换 DataNode 维护状态(IN_MAINTENANCE),该功能通常用于 DataNode 短暂下线,但是不需要迁移数据的场景。目前 Hadoop3.x 及以上版本支持该功能。详细操作参见HDFS DataNode 维护状态切换最佳实践
Yarn ResourceManager 主备切换
简称 RM 主备切换,将当前处于 Active 状态的 ResourceManager 转成 StandBy 状态,并将原先处于 StandBy 状态的 ResourceManager 转成 Active 状态。
RM 主备切换只有当 yarn.resourcemanager.ha.automatic-failover.enabled 禁用时才允许操作。
若 RM 主备切换未在 Yarn 卡片操作下拉框中显示,请在 Yarn 配置管理-配置文件 yarn-site.xml 中找到 yarn.resourcemanager.ha.automatic-failover.enabled,并对其进行禁用。
Yarn 刷新队列
当 capacity-scheduler.xml、fair-scheduler.xml 新增或更新内容时,本操作可以使这些内容在 ResourceManager 中生效。
注意,不要去删除 capacity-scheduler.xml、fair-scheduler.xml 中定义的已生效的队列。
Ranger 修改元数据库
当需要更改 Ranger 底层的数据库时,需要修改 conf/install.properties 文件,然后在本地执行 setup.sh 脚本,本操作提供一键配置元数据库功能,避免用户修改 Ranger 元数据库地址时因改漏配置导致服务异常。
本操作当前仅支持 Mysql 数据库,且测试连接功能仅用于测试管理员用户的连接。本操作将数据库的信息同步到本地的 ranger-admin-site.xml 配置文件中,但是不会同步修改配置管理中 ranger-admin-site.xml 的内容,若用户因为额外的需求在配置管理页修改并下发 ranger-admin-site.xml,会导致数据库信息被覆盖,从而导致异常。
如需执行服务操作可以通过以下操作实现:
1. 登录 EMR 控制台,在集群列表中单击对应的集群 ID/名称进入集群详情页。
2. 在集群详情页中选择集群服务,选择需要操作的组件卡片。
3. 以 HDFS NN 主备切换为例,在集群服务中,选择 HDFS 组件卡片操作 > NN 主备切换进行主备切换操作。



服务暂停方式列表

各服务组件支持的暂停方式如下:
组件
服务
暂停方式
描述
备注
HDFS
NameNode
快速暂停
直接停止服务
-
DataNode
快速暂停
直接停止服务
-
JournalNode
快速暂停
直接停止服务
-
zkfc
快速暂停
直接停止服务
-
YARN
ResourceManager
快速暂停
直接停止服务
-
NodeManager
快速暂停
直接停止服务
-
JobHistoryServer
快速暂停
直接停止服务
-
TimeLineServer
快速暂停
直接停止服务
-
HBASE
HbaseThrift
快速暂停
直接停止服务
-
HMaster
快速暂停
直接停止服务
-
RegionServer
快速暂停
直接停止服务
-
RegionServer
安全暂停
在停止 RegionServer 之前,会先迁移该 RegionServer 上的 Region
支持设置线程并发度
HIVE
HiveMetaStore
快速暂停
直接停止服务
-
HiveServer2
快速暂停
直接停止服务
-
HiveWebHcat
快速暂停
直接停止服务
-
PRESTO
PrestoCoordinator
快速暂停
直接停止服务
-
PrestoWorker
快速暂停
直接停止服务
-
ZOOKEEPER
QuorumPeerMain
快速暂停
直接停止服务
-
SPARK
SparkJobHistoryServer
快速暂停
直接停止服务
-
HUE
Hue
快速暂停
直接停止服务
-
OOZIE
Oozie
快速暂停
直接停止服务
-
STORM
Nimbus
快速暂停
直接停止服务
-
Supervisor
快速暂停
直接停止服务
-
Logviewer
快速暂停
直接停止服务
-
Ui
快速暂停
直接停止服务
-
RANGER
Ranger
快速暂停
直接停止服务
-
ALLUXIO
AlluxioMaster
快速暂停
直接停止服务
-
AlluxioWorker
快速暂停
直接停止服务
-
GANGLIA
Httpd
快速暂停
直接停止服务
-
Gmetad
快速暂停
直接停止服务
-
Gmond
快速暂停
直接停止服务
-