有奖捉虫:办公协同&微信生态&物联网文档专题 HOT
EMR 支持多种集群类型及相应的应用场景,并定义了5种节点类型,不同集群类型及应用场景支持的节点类型及部署节点数、部署服务不同;可根据业务选择不同的集群类型及应用场景创建集群。

集群类型说明

Hadoop 集群

应用场景
描述
节点部署说明
默认场景
基于开源 Hadoop 及其周边生态组件,提供了海量数据存储、离线/实时数据分析、流式数据计算、机器学习等场景的大数据解决方案。
Master 节点:为管理节点,保证集群的调度正常进行;主要部署 NameNode、ResourceManager、HMaster 等进程;非 HA 模式下数量为1,HA 模式下数量为2。
注意:部署组件中含 Kudu 时,集群仅支持 HA 模式,Master 节点数量为3。
Core 节点:为计算及存储节点,您在 HDFS 中的数据全部存储于 Core 节点中,因此为了保证数据安全,扩容 Core 节点后不允许缩容;主要部署 DataNode、NodeManager、RegionServer 等进程。非 HA 模式下数量≥2,HA 模式下数量≥3。
Task 节点:为纯计算节点,不存储数据,被计算的数据来自 Core 节点及 COS 中,因此 Task 节点往往被作为弹性节点,可随时扩容和缩容;主要部署 NodeManager、Trino-Worker 等进程;可随时更改 Task 节点数,实现集群弹性伸缩,最小值为0。
Common 节点:为 HA 集群 Master 节点提供数据共享同步以及高可用容错服务;主要部署分布式协调器组件,如 ZooKeeper、JournalNode 等节点。非HA模式数量为0,HA 模式下数量≥3。
Router 节点:用以分担 Master 节点的负载或者作为集群的任务提交机,可以随时扩容和缩容;主要部署 Hadoop 软件包,可选择部署 Hive、Hue、Spark 等软件和进程;可随时更改 Router 节点数,最小值为0。
ZooKeeper
适用于大规模集群建立分布式、高可用性的协调服务。
Common 节点:主要部署分布式协调器组件 ZooKeeper,部署节点个数必须是单数,最少3个 Common 节点,仅支持高可用(HA)。
HBase
适用于存储海量非结构化数据或半结构化数据,提供高可靠性、高性能、面向列和可伸缩的,实时数据读写的分布式存储系统。
Master 节点:为管理节点,保证集群的调度正常进行;主要部署 HMaster、HbaseThrift、NameNode、ResourceManager 等进程;非 HA 模式下数量为1,HA 模式下数量为2。
Core 节点:为计算及存储节点,您在 HDFS 中的数据全部存储于 Core 节点中,因此为了保证数据安全,扩容 Core 节点后不允许缩容;主要部署 RegionServer、DataNode、NodeManager 等进程。非 HA 模式下数量≥2,HA 模式下数量≥3。
Task 节点:为纯计算节点,不存储数据,被计算的数据来自 Core 节点及 COS 中,因此 Task 节点往往被作为弹性节点,可随时扩容和缩容;主要部署 NodeManager 等进程;可随时更改 Task 节点数,实现集群弹性伸缩,最小值为0。
Common 节点:为 HA 集群 Master 节点提供数据共享同步以及高可用容错服务;主要部署分布式协调器组件,如 ZooKeeper、JournalNode 等节点。非 HA 模式数量为0,HA 模式下数量≥3。
Router 节点:用以分担 Master 节点的负载或者作为集群的任务提交机,可以随时扩容和缩容;可随时更改 Router 节点数,最小值为0。
Trino(Presto)
提供开源的分布式 SQL 查询引擎,适用于交互式分析查询,支持对海量数据进行快速查询分析。
Master 节点:为管理节点,保证集群的调度正常进行;主要部署 Trino-Coordinator 、NameNode 等进程;非 HA 模式下数量为1,HA 模式下数量为2。
Core 节点:为计算及存储节点,如部署了 HDFS 服务,则 HDFS 中的数据全部存储于 Core 节点中,因此为了保证数据安全,扩容 Core 节点后不允许缩容;主要部署 Trino-Worker 、DataNode 等进程。非 HA 模式下数量≥2,HA 模式下数量≥3。
Task 节点:为纯计算节点,不存储数据,被计算的数据来自 Core 节点及 COS 中,因此 Task 节点往往被作为弹性节点,可随时扩容和缩容;主要部署 Trino-Worker 等进程;可随时更改 Task 节点数,实现集群弹性伸缩,最小值为0。
Common 节点:为 HDFS、Yarn 等服务在 HA 模式下的 Master 节点提供数据共享同步以及高可用容错服务;主要部署分布式协调器组件,如 ZooKeeper、JournalNode 等节点。非 HA 模式数量为0,如部署了 ZooKeeper HA 模式下数量≥3。
Router 节点:用以分担 Master 节点的负载或者作为集群的任务提交机,可以随时扩容和缩容;可随时更改 Router 节点数,最小值为0。
Kudu
提供分布式可扩展性的列式存储管理器,支持随机读写和 OLAP 分析对更新较快的数据进行处理。
Master 节点:为管理节点,保证集群的调度正常进行;主要部署 NameNode、ResourceManager等进程;非 HA 模式下数量为1,HA 模式下数量为2。
Core 节点:为计算及存储节点,您在 HDFS 中的数据全部存储于 Core 节点中,因此为了保证数据安全,扩容 Core 节点后不允许缩容;非 HA 模式下数量≥2,HA 模式下数量≥3。
Task 节点:为纯计算节点,不存储数据,被计算的数据来自 Core 节点及 COS 中,因此 Task 节点往往被作为弹性节点,可随时扩容和缩容;可随时更改 Task 节点数,实现集群弹性伸缩,最小值为0。
Common 节点:为 HA 集群 Master 节点提供数据共享同步以及高可用容错服务;主要部署分布式协调器组件,如 ZooKeeper、JournalNode 等节点,非HA模式数量为0,HA模式下数量≥3。
Router 节点:用以分担 Master 节点的负载或者作为集群的任务提交机,可以随时扩容和缩容;可随时更改 Router 节点数,最小值为0。

Kafka 集群

应用场景
描述
节点部署说明
默认场景
提供一个分布式、分区的、多副本的、多订阅者,基于 ZooKeeper 协调的消息处理系统,主要适用于异步处理,消息通讯以及流式数据接收和分发场景。
Core 节点:为 Backend 模块,主要提供数据存储功能;部署 BE、Broker 等进程非 HA 模式下数量≥1,HA 模式下数量≥2。
Common 节点:为 HA 集群 Core 节点提供数据共享同步以及高可用容错服务,非 HA 模式数量为0,HA 模式下数量≥3。

StarRocks 集群

应用场景
描述
节点部署说明
默认场景
StarRocks 采用了全面向量化技术,支持极速统一的OLAP分析数据库,适用多维分析,实时分析,高并发等场景等多种数据分析场景。
Master 节点:为 Frontend 模块,同时提供 Web UI 的功能;部署 FE Follower、Broker 等进程,非 HA 模式下数量≥1,HA 模式下数量≥3。
Core 节点:为 Backend 模块,主要提供数据存储功能;部署 BE、Broker 等进程,部署数量≥3。
Task 节点: 为纯计算节点,不存储数据,被计算的数据来自 Core 节点及 COS 中,因此 Task 节点往往被作为弹性节点,可随时扩容和缩容;主要部署Compute Node进程;可随时更改 Task 节点数,实现集群弹性伸缩,最小值为0。
Router 节点:部署 Frontend 模块,实现读写高可用;可选择部署 FE Observer、Broker 等进程,可扩容增加 Router 节点,不支持缩容。