EMR 开发指南

组件版本

最近更新时间:2021-09-08 15:37:24

腾讯云弹性 MapReduce 由一系列大数据生态的开源应用程序组成。支持部署五种集群类型:HADOOP 集群、DRUID 集群、CLICKHOUSE 集群、KAFKA 集群、DORIS 集群,每个弹性 MapReduce 的版本,包含了一组特定版本的开源程序。当您在创建集群时,可以选择对应的 EMR 版本,以满足您对其中包含的开源组件的版本需求。

EMR 提供的组件版本有两种类型,一是标准版本,主要依托开源社区稳定组件版本提供服务,如果您希望与跟社区演进保持一致推荐您选择标准版本;二是天穹版本,此版本在开源社区组件稳定版本的基础上,融入了腾讯云自研、成熟稳定的特性和功能,带来性能及稳定性的提升。请在选型初期根据您的情况进行选择,不建议在使用期间进行标准版和天穹版的切换。

弹性 MapReduce 采用 EMR-Va.b.c 格式的版本号,详细说明如下:

  • a 在不同集群中代表的版本含义如下:
    • Hadoop 集群中 a 代表当前版本支持的 Hadoop 版本,a 等于1或2为支持 Hadoop 为 2.X 版本,a 等于3表示为支持 Hadoop3.x 版本。
    • Druid 集群中 a 代表当前版本支持的 Druid 版本,a 等于1为支持 Druid 为 0.17.x 版本。
    • ClickHouse 集群中 a 代表支持的 ClickHouse 的版本,a 等于1为支持 ClickHouse 为 19.x 和 20.x 版本。
    • Kafka 集群中 a 代表当前版本支持 Kafka 的版本,a 等于1为支持 Kafka1.x。
    • Doris 集群中 a 代表当前版本支持 Doris 的版本,a 等于1为支持 Doris0.13x。
  • b 代表版本中新增组件或支持组件版本升级。
  • c 代表功能优化。
注意:

  • 每一个版本上捆绑的组件和组件的版本都是固定的。目前还不支持组件的多个不同版本的选择,也不支持用户自行更改组件的版本。例如在 EMR-V2.0.1 版本中内置的是 Hadoop 2.7.3、Spark 2.2.1 等。
  • 一旦选择了 EMR 某个版本创建集群,该集群使用的 EMR 版本和组件版本不会自动升级,例如选 EMR-V2.0.1 版本,那么 Hadoop 就一直保持在2.7.3版本,Spark 就一直保持在2.2.1版本。后续如果版本升级到了 EMR-V2.1.0 版本,Hadoop 到了2.8.4版本,Spark 到了2.3.2版本,也不会影响已创建的集群。只有新的集群才会使用新的镜像。
  • 当您通过数据迁移的方式升级集群版本时(例如,从 EMR-V2.0.1 版本升级到 EMR-V2.1.0 版本),为防止一些升级不兼容、环境变化等问题的出现,请务必测试需要迁移的任务,以确保在新的软件环境中可以正常运行。
  • EMR-V2.4.0 版本安装 kona(基于 OpenJDK8),基于云场景的支撑及特性,我们在 kona 进行了开发及优化,kona 详情可参考 腾讯 Kona

Hadoop 集群分标准版本和天穹版本,两者版本区别详情可参考 EMR 天穹版本简介

EMR 标准版本

标准版本,当前支持 HADOOP 集群、DRUID 集群、CLICKHOUSE 集群、KAFKA 集群和 DORIS 集群。

Hadoop2.x 标准版本支持组件产品版本如下:

组件名称 EMR-V 1.3.1 EMR-V 2.0.1 EMR-V 2.1.0 EMR-V 2.2.0 EMR-V 2.3.0 EMR-V 2.4.0 EMR-V 2.5.0 EMR-V 2.5.1 EMR-V 2.6.0
发布时间 - - 2019.05 2020.03 2020.05 2020.08 2020.09 2021.04 2021.07
Hadoop(必选组件) 2.7.3 2.7.3 2.8.4 2.8.5 2.8.5 2.8.5 2.8.5 2.8.5 2.8.5
Spark_Hadoop 2.7 2.0.2 2.7 2.2.1 2.8 2.3.2 2.8 2.4.3 2.8 2.4.3 2.8 3.0.0 2.8 3.0.0 - -
Spark - - - - - - - 3.0.0 3.0.2
Hive 2.1.1 2.3.2 2.3.3 2.3.5 2.3.5 2.3.7 2.3.7 2.3.7 2.3.7
Tez 0.8.5 0.8.5 0.8.5 0.9.2 0.9.2 0.9.2 0.9.2 0.9.2 0.9.2
Presto 0.161 0.188 0.215 0.228 0.228 - - - -
PrestoSQL - - - - - 332 332 332 332
Storm 1.1.0 1.1.0 1.1.0 1.2.3 1.2.3 1.2.3 1.2.3 1.2.3 1.2.3
Flink 1.2.0 1.2.0 1.4.2 1.9.2 1.9.2 1.10.0 1.10.0 1.10.0 1.12.1
Hbase 1.2.4 1.3.1 1.3.1 1.4.9 1.4.9 1.4.9 1.4.9 1.4.9 1.4.9
Phoenix(集成在 HBase 中) 4.8.1 4.11.0 4.13.0 4.13.0 4.13.0 4.13.0 4.13.0 4.13.0 4.14.0
Ganglia 3.7.2 3.7.2 3.7.2 3.7.2 3.7.2 3.7.2 3.7.2 3.7.2 3.7.2
Hue 3.12.0 3.12.0 4.4.0 4.6.0 4.6.0 4.6.0 4.6.0 4.6.0 4.6.0
Sqoop 1.4.6 1.4.6 1.4.7 1.4.7 1.4.7 1.4.7 1.4.7 1.4.7 1.4.7
Oozie 4.3.1 4.3.1 4.3.1 5.1.0 5.1.0 5.1.0 5.1.0 5.1.0 5.1.0
Ranger - 0.7.1 0.7.1 1.2.0 1.2.0 1.2.0 1.2.0 1.2.0 1.2.0
ZooKeeper(必选组件) 3.4.9 3.4.9 3.4.9 3.5.5 3.5.5 3.6.1 3.6.1 3.6.1 3.6.1
Flume - - 1.8.0 1.9.0 1.9.0 1.9.0 1.9.0 1.9.0 1.9.0
Impala - - - 2.10.0 2.10.0 2.10.0 2.10.0 2.10.0 3.4.0
Kylin - - - 2.5.2 2.5.2 2.5.2 2.5.2 2.5.2 2.5.2
Zeppelin - - - 0.8.2 0.8.2 0.8.2 0.8.2 0.8.2 0.9.1
Alluxio - - 1.8.1 1.8.1 1.8.1 1.8.1 2.3.0 2.5.0 2.5.0
Knox(必选组件) 1.2.0 1.2.0 1.2.0 1.2.0 1.2.0 1.2.0 1.2.0 1.2.0 1.2.0
Kerberos - - 1.15.0 1.15.0 1.15.0 1.15.0 1.15.0 1.15.0 1.15.0
Hudi - - - 0.5.1 0.5.1 - - - 0.7.0
Superset - - - 0.35.2 0.35.2 0.35.2 0.35.2 0.35.2 0.35.2
Livy - - - 0.7.0 0.7.0 0.7.0 0.7.0 0.7.0 0.8.0
TensorFlowSpark - - - - 1.4.4 1.4.4 1.4.4 1.4.4 1.4.4
Jupyter - - - - 4.6.3 4.6.3 4.6.3 4.6.3 4.6.3
Kudu - - - - - 1.12.0 1.12.0 1.12.0 1.12.0
OpenLDAP(必选组件) - - - - - - - - 2.4.44

Hadoop3.x 标准版本支持组件产品版本如下:

组件名称 EMR-V 3.0.0 EMR-V 3.1.0 EMR-V 3.2.0 EMR-V 3.2.1
发布时间 2019.11 2020.12 2021.04 2021.07
Hadoop(必选) 3.1.2 - - -
HDFS(必选) - 3.1.2 3.2.2 3.2.2
Yarn(必选) - 3.1.2 3.2.2 3.2.2
Spark_ Hadoop 3.12.4.3 - - -
Spark - 2.4.3 3.0.2 3.0.2
Hive 3.1.1 3.1.1 3.1.2 3.1.2
Tez 0.9.2 0.9.2 0.10.0 0.10.0
Presto 0.222 - - -
PrestoSQL - 332 350 350
Flink 1.8.1 1.10.0 1.12.1 1.12.1
Hbase 2.2.0 2.3.3 2.3.3 2.3.3
Hue 4.4.0 4.4.0 4.4.0 4.4.0
Sqoop 1.4.7 1.4.7 1.4.7 1.4.7
Oozie 5.1.0 5.1.0 5.1.0 5.1.0
Ranger 2.0.0 2.0.0 2.1.0 2.1.0
ZooKeeper(必选组件) 3.4.9 3.6.1 3.6.1 3.6.1
Flume 1.9.0 1.9.0 1.9.0 1.9.0
Impala 2.10.0 3.4.0 3.4.0 3.4.0
Alluxio 1.8.1 2.3.0 2.5.0 2.5.0
Knox(必选组件) 1.2.0 1.2.0 1.2.0 1.2.0
Kudu - 1.13.0 1.13.0 1.13.0
Kerberos 1.15.1 1.15.1 1.51.1 1.51.1
Zeppelin - 0.8.2 0.9.1 0.9.1
iceberg - - 0.11.0 0.11.0
OpenLDAP(必选组件) - - - 2.4.44

DRUID 集群已支持组件产品版本如下:

组件名称 DRUID-V 1.0.0
发布时间 2020.04
Hadoop(必选组件) 2.8.5
Druid(必选组件) 0.17.0
ZooKeeper(必选组件) 3.5.5
Knox(必选组件) 1.2.0
Superset 0.35.2
Ganglia 3.7.2

CLICKHOUSE 集群已支持组件产品版本如下:

组件名称 CLICKHOUSE-V 1.0.0 CLICKHOUSE-V 1.1.0
发布时间 2020.04 2020.05
ClickHouse(必选组件) 19.16.12.49 20.3.10.75
ZooKeeper(必选组件) 3.4.9 3.4.9
Superset - 0.35.2

KAFKA 集群已支持组件产品版本如下:

组件名称 KAFKA-V 1.0.0
发布时间 2021.05
Kafka(必选组件) 1.1.1
KafkaManager(必选组件) 2.0.0.2
Knox(必选组件) 1.2.0
ZooKeeper(必选组件) 3.6.1

DORIS 集群已支持组件产品版本如下:

组件名称 DORIS-V 1.0.0
发布时间 2021.05
Doris(必选组件) 0.13.0
Knox(必选组件) 1.2.0

EMR 天穹版本

天穹版本,当前只支持 HADOOP 集群,已融合增强版 Spark、腾讯自研 JDK Kona。

Hadoop2.x 天穹版本支持组件产品版本如下:

组件名称 EMR-TianQiong-V1.0.0
发布时间 2020.11
Hadoop(必选组件) 2.8.5
Spark 3.0.1【增强版】
Hive 2.3.7
Tez 0.9.2
PrestoSQL 332
Storm 1.2.3
Flink 1.10.0
Hbase 1.4.9
Phoenix 4.13.0
Ganglia 3.7.2
Hue 4.6.0
Sqoop 1.4.7
Oozie 5.1.0
Ranger 1.2.0
ZooKeeper(必选组件) 3.6.1
Flume 1.9.0
Impala 2.10.0
Kylin 2.5.2
Alluxio 2.3.0
Knox(必选组件) 1.2.0
Kerberos 1.15.0
Hudi 0.5.1
Superset 0.35.2
Livy 0.7.0
TensorFlowSpark 1.4.4
Jupyter 4.6.3
kudu 1.12.0
目录