有奖捉虫:办公协同&微信生态&物联网文档专题 HOT

选择集群类型

EMR 集群提供多种集群类型,可根据实际业务需要选择集群类型:
Hadoop集群:基于开源 Hadoop 及其周边生态组件,提供了5种应用场景:默认场景、Zookeeper、HBase、Presto、Kudu;满足海量数据存储、离线/实时数据分析、流式数据计算、机器学习等场景的大数据解决方案。
Kafka 集群:是一个分布式、分区的、多副本的、多订阅者,基于 Zookeeper 协调的消息处理系统,主要适用于异步处理,消息通讯以及流式数据接收和分发场景。
StarRocks 集群:采用了全面向量化技术,支持极速统一的 OLAP 分析数据库,适用多维分析,实时分析,高并发等场景等多种数据分析场景。

选择计费模式

EMR 集群提供两种计费模式:
包年包月集群:集群的全部节点计费模式均为包年包月,适用于长期存在且计算量稳定集群。
按量计费集群:集群的全部节点计费模式均为按量计费,适用于短时间存在或周期性存在的集群。
注意
在 CVM 控制台对 EMR 集群按量计费节点进行关机操作时,请谨慎选择关机模式,EMR 节点不支持关机不收费模式。

选择机型规格

EMR 提供了多种云服务器机型,包括 EMR 标准型、EMR 计算型、EMR 高 IO 型、EMR 内存型及 EMR 大数据型(若您需要黑石2.0,可通过 售前咨询 联系我们)。
您可以根据自身的业务需要及成本考量,进行机型的选择。
如您对离线计算的时延有一定的要求,我们建议您选择本地盘或大数据机型。
如您需要使用实时数据库 HBase,我们建议您选择 EMR 高 IO 型,并选择本地 SSD 盘,以实现最高的性能。
本地盘机型不支持部署在 Master 和 Common 节点上,请选择非本地盘机型。

节点规格推荐

EMR 定义了5种节点类型,您可以根据集群类型进行选择:
集群类型
应用场景
节点类型
推荐规格
Hadoop
默认场景
Master
Master 节点:建议选择内存较大的实例规格,推荐内存大小至少8G。磁盘建议选择云盘可以让集群获得更高的稳定性。
Core
若您的大部分数据在 COS 对象存储上,Core 节点与 Task 节点的功能则类似,大小不少于500G。Core 节点不具备弹性功能。
若您的架构未使用 COS 对象存储,则 Core 节点负责集群的计算与存储任务,EMR 默认开启三备份,在做数据盘大小预估时需考虑三备份空间,推荐使用大数据机型。
Task
若您的架构未使用 COS 对象存储,则可以不使用 Task 节点。
若您的大部分数据在 COS 对象存储上,则 Task 节点可用作弹性计算资源,按需获取。
若您的集群计费模式为包年包月,需要 Task 节点的计费模式为按量付费。
Common
common 节点:节点主要做 zk 节点使用,最低选择2C4G 云盘100G 的规格可满足需求。
Router
Router 节点:主要用于缓解主节点负载和用作任务提交机,因此建议选择较大内存的机型,最好不低于 Master 规格。
Zookeeper
Common
common 节点:主要做 zk 节点使用,最低选择2C4G 云盘100G 的规格即可满足需求。
HBase
Master
Master 节点:建议选择内存较大的实例规格,推荐内存大小至少8G。磁盘建议选择云盘可以让集群获得更高的稳定性。
Core
若您的大部分数据在 COS 对象存储上,Core 节点与 Task 节点的功能则类似,大小不少于500G。
注意,Core 节点不具备弹性功能。
若您的架构未使用 COS 对象存储,则 Core 节点负责集群的计算与存储任务。
Task
若您的架构未使用 COS 对象存储,则可以不使用 Task 节点。
若您的大部分数据在 COS 对象存储上,则 Task 节点可用作弹性计算资源,按需获取。
若您的集群计费模式为包年包月,需要 Task 节点的计费模式为按量付费,那么您需要在此处将 Task 节点数量设置为0,在您需要的时候通过控制台或 API 扩容按量付费的 Task 节点。
Common
common 节点:主要做 zk 节点使用,最低选择2C4G 云盘100G 的规格即可满足需求。
Router
Router 节点:主要用于缓解主节点负载和用作任务提交机,因此建议选择较大内存的机型,最好不低于 Master 规格。
kudu
Master
Master 节点:建议选择内存较大的实例规格,推荐内存大小至少8G。磁盘建议选择云盘可以让集群获得更高的稳定性。
Core
若您的大部分数据在 COS 对象存储上,Core 节点与 Task 节点的功能则类似,大小不少于500G。
注意:Core 节点不具备弹性功能。
若您的架构未使用 COS 对象存储,则 Core 节点负责集群的计算与存储任务,EMR 默认开启三备份,在做数据盘大小预估时需考虑三备份空间,推荐使用大数据机型。
Task
若您的架构未使用COS对象存储,则可以不使用Task节点。
若您的大部分数据在 COS 对象存储上,则Task节点可用作弹性计算资源,按需获取。
若您的集群计费模式为包年包月,需要 Task 节点的计费模式为按量付费,那么您需要在此处将 Task 节点数量设置为0,在您需要的时候通过控制台或 API 扩容按量付费的 Task 节点。
Common
common 节点:主要做 zk 节点使用,最低选择2C4G 云盘100G 的规格即可满足需求。
Router
Router 节点:主要用于缓解主节点负载和用作任务提交机,因此建议选择较大内存的机型,最好不低于 Master 规格。
presto
Master
Master 节点:建议选择内存较大的实例规格,推荐内存大小至少8G。磁盘建议选择云盘可以让集群获得更高的稳定性。
Core
若您的大部分数据在 COS 对象存储上,Core 节点与 Task 节点的功能则类似,大小不少于500G。
注意:Core 节点不具备弹性功能。
若您的架构未使用 COS 对象存储,则 Core 节点负责集群的计算与存储任务,EMR 默认开启三备份,在做数据盘大小预估时需考虑三备份空间,推荐使用大数据机型。
Task
若您的架构未使用COS对象存储,则可以不使用Task节点。
若您的大部分数据在 COS 对象存储上,则Task节点可用作弹性计算资源,按需获取。
若您的集群计费模式为包年包月,需要 Task 节点的计费模式为按量付费,那么您需要在此处将 Task 节点数量设置为0,在您需要的时候通过控制台或 API 扩容按量付费的 Task 节点。
Common
common 节点:主要做 zk 节点使用,最低选择2C4G 云盘100G 的规格即可满足需求。
Router
Router 节点:主要用于缓解主节点负载和用作任务提交机,因此建议选择较大内存的机型,最好不低于 Master 规格。
Kafka
默认场景
Core
Core 节点:建议选择 CPU 和内存较高的机型,由于本地磁盘遇到坏盘情况存在数据丢失风险,磁盘建议选择云硬盘。
Common
common 节点:建议 CPU 和内存最小配置不低于4C16G。
StarRocks
默认场景
Master
Master 节点:建议选择内存较大的实例规格,推荐内存大小至少8G,Master 节点上元数据全部存储在内存中。
Core
Core 节点:建议选择内存较大的实例规格,推荐内存大小至少8G。磁盘推荐使用云 SSD 盘以获得更好的 IO 性能及稳定性。
Router
Router 节点:部署 Frontend 模块,实现读写高可用,因此建议选择较大内存的机型,最好不低于 Master 规格。
注意
不同集群类型对节点规格要求不同,目前系统将默认推荐满足集群要求的配置,您可以根据业务需求调整机型规格,推荐机型仅作参考。
Core 节点不具备弹性功能。若您的架构未使用 COS 对象存储,则 Core 节点负责集群的计算与存储任务,EMR 默认开启三备份,在做数据盘大小预估时需考虑三备份空间,推荐使用大数据机型。

网络及安全

为保证集群的网络安全,EMR 集群将会被放置在一个 VPC 中,我们会给该 VPC 增加一个安全组策略。同时为了保证 Hadoop 生态组件的 WebUI 能够便捷访问,我们为其中一个 Master 节点开启了外网 IP,按照流量计费的模式;Router 节点默认不开通外网 IP,如需开通,可以在 CVM 控制台自由绑定弹性公网 IP。
注意
Master 节点在创建集群时默认开启外网 IP,但用户可根据情况选择不开启外网 IP。
开启集群 Master 节点公网,主要用于 ssh 登录和组件 WebUI 查看。
主节点 Master 节点会开启外网,按流量付费,带宽上限为5M。创建集群后,您可在控制台对该网络进行调整。