EMR 开发指南

业务评估

最近更新时间:2020-05-08 17:25:20

选择集群类型

EMR 集群提供三种集群类型,可根据实际业务需要选择集群类型:

  • Hadoop 集群:提供了 hadoop、Hbase、Hive、Spark、flink、presto 等开源大数据组件,主要应用于离线数据分析、实时数据分析、Ad hoc 等大数据处理场景。
  • ClickHouse 集群:提供了开源列式数据库 ClickHouse 组件,主要应用于结构良好清晰且不可变的事件或日志流分析场景。
  • Druid 集群:提供了分布式时序数据库 Druid 组件,主要应用于大量的基于时序的数据聚合查询的场景。

选择计费模式

EMR 集群提供三种计费模式:

  • 包年包月集群:集群的全部节点计费模式均为包年包月,适用于长期存在且计算量稳定集群。
  • 按量计费集群:集群的全部节点计费模式均为按量计费,适用于短时间存在或周期性存在的集群。
  • 混合计费集群:集群的 Master、Core、Common 节点的计费模式为包年包月,Task 节点存在按量计费的节点,适用于计算量存在波峰的场景,在波峰到达前扩容 Task 节点,波峰后缩容 Task 节点;Router 节点可以存在按量计费的节点,适用于主节点内存、CPU 等资源存在波峰的场景,在波峰到达前扩容 Router 节点,波峰后缩容 Router 节点。

节点类型介绍,请参见 节点类型说明

选择机型规格

EMR 提供了多种云服务器机型,包括 EMR 标准型、EMR 计算型、EMR 高 IO 型、EMR 内存型及 EMR 大数据型(若您需要黑石机型,请 提交工单 联系我们)。

注意:

  • Hadoop 集群和 Druid 集群在高可用(HA)下节点最小节点数为8个,包含2个 Master 节点,3个 Common 节点,最少3个 Core 节点。非高可用(HA)下存储为单副本,可作为测试使用,不建议作为生产环境,最小节点数为3个,包含1个 Master 节点,最少2个 Core 节点。
  • Clickhouse 集群在高可用(HA)下节点最小节点数为5个,包含2个 core 节点,3个 Common 节点。非高可用(非 HA)下,存储为单副本,可作为测试使用,不建议作为生产环境,最少1个 core 节点。

您可以根据自身的业务需要及成本考量,进行机型的选择。

  • 如您对离线计算的时延有一定的要求,我们建议您选择本地盘或大数据机型。
  • 如您需要使用实时数据库 Hbase,我们建议您选择 EMR 高 IO 型,并选择本地 SSD 盘,以实现最高的性能。

节点规格推荐

节点类型 集群类型 推荐规格
Master 节点 Hadoop 集群 Master 节点建议选择内存较大的实例规格,推荐内存大小至少8G。磁盘建议选择云盘可以让集群获得更高的稳定性。
ClickHouse 集群 -
Druid 集群 Master 节点建议选择内存较大的实例规格,推荐内存不低于16G。磁盘推荐使用 SSD 盘,可以获得更好的 IO 性能。
Core 节点 Hadoop 集群
  • 若您的大部分数据在 COS 对象存储上,Core 节点与 Task 节点的功能则类似,大小不少于500G。Core 节点不具备弹性功能。
  • 若您的架构未使用 COS 对象存储,则 Core 节点负责集群的计算与存储任务,EMR 默认开启三备份,在做数据盘大小预估时需考虑三备份空间,推荐使用大数据机型。
  • ClickHouse 集群 Core 节点建议选择 CPU 和内存较高的机型,由于本地磁盘遇到坏盘情况存在数据丢失风险,磁盘建议选择云硬盘。
    Druid 集群 Core 建议选择内存较大的实例规格,推荐内存不低于16G。磁盘建议选用 SSD 盘,可以获得更好的 IO 性能。
    Task 节点 Hadoop 集群
  • 若您的架构未使用 COS 对象存储,则可以不使用 Task 节点。
  • 若您的大部分数据在 COS 对象存储上,则 Task 节点可用作弹性计算资源,按需获取。
  • 若您的集群计费模式为包年包月,需要 Task 节点的计费模式为按量付费,那么您需要在此处将 Task 节点数量设置为0,在您需要的时候通过控制台或 API 扩容按量付费的 Task 节点。
  • ClickHouse 集群 -
    Druid 集群
  • 若您的架构未使用 COS 对象存储,则可以不使用 Task 节点。
  • 若您的大部分数据在 COS 对象存储上,则 Task 节点可用作弹性计算资源,按需获取。
  • 若您的集群计费模式为包年包月,需要 Task 节点的计费模式为按量付费,那么您需要在此处将 Task 节点数量设置为0,在您需要的时候通过控制台或 API 扩容按量付费的 Task 节点。
  • Common 节点 Hadoop 集群 Common 节点主要做 zk 节点使用,建议选择2C4G云盘100G的规格即可满足需求。
    ClickHouse 集群 Common 节点建议 CPU 和内存最小配置不低于4C16G。
    Druid 集群 Common 节点主要做 zk 节点使用,建议选择2C4G云盘100G的规格即可满足需求。
    Router 节点 Hadoop 集群 Router 节点主要用于缓解主节点负载和用作任务提交机,因此建议选择较大内存的机型,最好不低于 Master 规格。
    ClickHouse 集群 -
    Druid 集群 Router 节点主要用于缓解主节点负载和用作任务提交机,因此建议选择较大内存的机型,最好不低于 Master 规格。

    网络及安全

    为保证集群的网络安全,EMR 集群将会被放置在一个 VPC 中,我们会给该 VPC 增加一个安全组策略。同时,为了保证 Hadoop 软件的 WebUI 能够便捷访问,我们为其中一个 Master 节点开启了外网 IP,采用按照流量计费的模式;Router 节点默认不开通外网 IP,如需开通,可以在 CVM 控制台 自由绑定弹性公网 IP。

    注意:

    • Master 节点在创建集群时默认开启外网 IP,但用户可根据情况选择不开启外网 IP。
    • 开启集群 Master 节点公网,主要用于 ssh 登录和组件 WebUI 查看。
    • 主节点 Master 节点会开启外网,按流量付费,带宽上限为5M。创建集群后,您可在控制台对该网络进行调整。
    目录