EMR 开发指南

业务评估

最近更新时间:2021-08-06 15:27:53

选择集群类型

EMR 集群提供五种集群类型,可根据实际业务需要选择集群类型:

  • HADOOP 集群:基于开源 Hadoop 及其周边生态组件,提供了海量数据存储、离线/实时数据分析、流式数据计算、机器学习等场景的大数据解决方案。
  • DRUID 集群:Druid 是一个高性能实时分析数据库,提供了大数据查询毫秒级延迟,支持多种数据摄入方式,适用于大数据实时查询场景。
  • CLICKHOUSE 集群:ClickHouse 是一个用于联机分析(OLAP)的列式数据库管理系统,适用于大宽表实时分析、实时 BI 报表分析、用户行为分析等高性能数仓分析业务场景。
  • Doris 集群:Doris 是一个 MPP 分析型数据库产品,对于 PB 数量级、结构化数据可以做到亚秒级查询响应,使用上兼容 MySQL 协议,语法是标准的 SQL。适用于固定历史报表分析、实时数据分析、交互式数据分析等场景。
  • Kafka 集群:Kafka 是一个分布式、分区的、多副本的、多订阅者,基于 zookeeper 协调的消息处理系统,主要适用于异步处理,消息通讯以及流式数据接收和分发场景。

选择计费模式

EMR 集群提供三种计费模式:

  • 包年包月集群:集群的全部节点计费模式均为包年包月,适用于长期存在且计算量稳定集群。
  • 按量计费集群:集群的全部节点计费模式均为按量计费,适用于短时间存在或周期性存在的集群。
  • 混合计费集群:集群的 Master、Core、Common 节点的计费模式为包年包月,Task 节点存在按量计费的节点,适用于计算量存在波峰的场景,在波峰到达前扩容 Task 节点,波峰后缩容 Task 节点;Router 节点可以存在按量计费的节点,适用于主节点内存、CPU 等资源存在波峰的场景,在波峰到达前扩容 Router 节点,波峰后缩容 Router 节点。

节点类型介绍,请参见 节点类型说明

选择机型规格

EMR 提供了多种云服务器机型,包括 EMR 标准型、EMR 计算型、EMR 高 IO 型、EMR 内存型及 EMR 大数据型(若您需要黑石机型,可通过 售前咨询 联系我们)。

您可以根据自身的业务需要及成本考量,进行机型的选择。

  • 如您对离线计算的时延有一定的要求,我们建议您选择本地盘或大数据机型。
  • 如您需要使用实时数据库 Hbase,我们建议您选择 EMR 高 IO 型,并选择本地 SSD 盘,以实现最高的性能。

节点规格推荐

集群类型 节点类型 推荐规格
Hadoop Master 建议选择内存较大的实例规格,推荐内存大小至少8G。磁盘建议选择云盘可以让集群获得更高的稳定性。
Core
  • 若您的大部分数据在 COS 对象存储上,Core 节点与 Task 节点的功能则类似,大小不少于500G。Core 节点不具备弹性功能。
  • 若您的架构未使用 COS 对象存储,则 Core 节点负责集群的计算与存储任务,EMR 默认开启三备份,在做数据盘大小预估时需考虑三备份空间,推荐使用大数据机型。
  • Task
  • 若您的架构未使用 COS 对象存储,则可以不使用 Task 节点。
  • 若您的大部分数据在 COS 对象存储上,则 Task 节点可用作弹性计算资源,按需获取。
  • 若您的集群计费模式为包年包月,需要 Task 节点的计费模式为按量付费。
  • Common 节点主要做 zk 节点使用,建议选择2C4G云盘100G的规格即可满足需求。
    Router 主要用于缓解主节点负载和用作任务提交机,因此建议选择较大内存的机型,最好不低于 Master 规格。
    ClickHouse Core 建议选择 CPU 和内存较高的机型,由于本地磁盘遇到坏盘情况存在数据丢失风险,磁盘建议选择云硬盘。
    Common 建议 CPU 和内存最小配置不低于4C16G。
    Kafka Core 建议选择 CPU 和内存较高的机型,由于本地磁盘遇到坏盘情况存在数据丢失风险,磁盘建议选择云硬盘。
    Common 建议 CPU 和内存最小配置不低于4C16G。
    Doris Master 建议选择内存较大的实例规格,推荐内存大小至少8G,Master 节点上元数据全部存储在内存中。
    Core 建议选择内存较大的实例规格,推荐内存大小至少8G。磁盘推荐使用云 SSD 盘以获得更好的 IO 性能及稳定性。
    Router 部署 Frontend 模块,实现读写高可用,因此建议选择较大内存的机型,最好不低于 Master 规格。
    Druid Master 建议选择内存较大的实例规格,推荐内存不低于16G。磁盘推荐使用 SSD 盘,可以获得更好的 IO 性能。
    Core 建议选择内存较大的实例规格,推荐内存大小至少8G。磁盘推荐使用云 SSD 盘以获得更好的 IO 性能及稳定性。
    Task 若您的架构未使用 COS 对象存储,则可以不使用 Task 节点。
  • 若您的大部分数据在 COS 对象存储上,则 Task 节点可用作弹性计算资源,按需获取。
  • 若您的集群计费模式为包年包月,需要 Task 节点的计费模式为按量付费,那么您需要在此处将 Task 节点数量设置为0,在您需要的时候通过控制台或 API 扩容按量付费的 Task 节点。
  • Common 主要做 zk 节点使用,建议选择2C4G云盘100G的规格即可满足需求。
    Router 主要用于缓解主节点负载和用作任务提交机,因此建议选择较大内存的机型,最好不低于 Master 规格。

    网络及安全

    为保证集群的网络安全,EMR 集群将会被放置在一个 VPC 中,我们会给该 VPC 增加一个安全组策略。同时,为了保证 Hadoop 软件的 WebUI 能够便捷访问,我们为其中一个 Master 节点开启了外网 IP,采用按照流量计费的模式;Router 节点默认不开通外网 IP,如需开通,可以在 CVM 控制台 自由绑定弹性公网 IP。

    注意:

    • Master 节点在创建集群时默认开启外网 IP,但用户可根据情况选择不开启外网 IP。
    • 开启集群 Master 节点公网,主要用于 ssh 登录和组件 WebUI 查看。
    • 主节点 Master 节点会开启外网,按流量付费,带宽上限为5M。创建集群后,您可在控制台对该网络进行调整。
    目录