产品特性

开源稳定

提供高性能、高稳定性、按需灵活搭配的 Hive、Spark、Presto、HBase、Flink、Iceberg、Alluxio 等丰富开源大数据组件。

组件增强

基于开源组件深度优化其性能及功能,提供Spark物化视图、Alluxio透明加速、Iceberg Z-Order算法等优化技术。

高效运维

提供云原生一体化丰富的监控指标、自定义配置告警,支持重要事件及作业现场快照回溯,大幅缩减排障路径,提升运维效率。

资源弹性

可按时间或负载自动、平滑扩缩集群计算资源,分钟级扩充海量算力,助力企业高效应对复杂多变的业务场景。

安全可靠

VPC 网络隔离和安全组保证网络安全可信,支持 Kerberos 身份认证,支持基于 Ranger 对本地及COS数据细粒度权限管控。

综合降本

资源按需使用,降低闲置成本;易于部署及维护,降低运维成本;支持竞价实例、混合计费,可进一步精细化管理成本支出。

应用场景

  • 大数据迁移上云
  • 云原生数据湖构建
  • 离线数据分析
  • 在线业务查询
  • 流式数据处理

简介

基于IDC及其他开源Hadoop发行版软件自建的大数据平台,面临技术栈复杂、组件版本滞后、维护成本高、技术支持不足等挑战。EMR具备平滑的迁移能力,提供丰富的迁移工具,可快速于云上构建更前沿、稳定、高性能、低成本的云原生大数据平台。

优势

  • 组件开源兼容,平滑迁移
  • 云原生架构升级,增效降本
  • 持续缺陷修复、专业技术支持
  • Sentry迁移Ranger等丰富工具

产品规格

Hadoop分析集群
大数据分布式系统基础框架,适用于离线/实时分析等各类大数据场景。
Druid集群
面向实时分析的列式存储引擎,适用于高并发实时分析等场景。
StarRocks集群
极速统一的OLAP分析数据库,适用多维分析,实时分析,高并发等场景。

弹性 MapReduce与自建Hadoop集群对比

对比维度
腾讯云-弹性MapReduce
自建Hadoop集群
成本
  • 计算资源弹性使用,数据可分层存储,提升资源利用率,降低闲置成本。
  • 无需额外操作系统及软件Licenese费用。
  • 资源需提前预估,且无法弹性,导致利用率低,成本高。
  • 购买商业Hadoop发行版软件,需额外支付昂贵的Licenese费用。
性能
  • 基于社区开源组件增强,如Iceberg提供Z-Order优化可提升场景化性能10倍以上。
  • 与基础设施深度融合,提供更高的性能表现。
  • 组件采用开源社区版本,性能需自行优化。
  • 无法快速整合基础设施,参数需自行调优。
维护
  • 基于开源组件持续加固,发行版本经过专业的兼容性验证测试,提供优于社区版本的稳定性体验。
  • 控制台提供丰富的运维、监控能力,帮助业务团队和运维团队快速定位和解决任务运行问题。
  • 采用开源社区的版本,需自行处理兼容性问题及bug修复。
  • 基于hadoop自建需自行搭建运维监控,基于开源发行版缺乏有效支持。
弹性
  • 集群计算资源可按时间或负载自动、平滑扩缩,分钟级扩充海量算力。
  • 支持通过 API 方式分钟级在程序中创建、销毁 EMR 集群,灵活支持临时作业。
  • 计算存储资源耦合,且资源相对固定,无法根据业务的潮汐效应,进行资源的弹性扩缩容。
安全
  • 提供认证、权限管控、审计等全方位安全能力,可对文件、任务、表、列的权限控制功能。
  • Ranger、Kerberos、ladp等安全能力需自行构建,复杂度高,组件适配等不完整。
可靠
  • 众多头部客户及腾讯内部大规模、企业级环境的长期稳定验证。
  • 支持跨AZ部署、HDFS联邦、KDC&Ranger共享等高阶管理能力。
  • 仅能覆盖基本场景测试,缺乏大规模、企业级长期稳定验证。
  • 高阶管理能力建设、运维成本高。
生态
  • 与云监控、云审计、数据开发平台、对象存储等云上生态产品便捷搭配使用,快速构建云上企业智能生态。
  • 配套能力需自行构建,成本高周期长。

产品路线图

认证与实践

腾讯云大数据开发工程师认证
针对大数据开发人员的高级技能认证, 通过该认证, 可有效验证您是否具备基于腾讯云 EMR 产品开通、部署和使用 Hadoop 大数据系统的能力。
EMR 实践课程
依托国内电商巨头的真实业务场景,基于腾讯云 EMR 搭建实时数据仓库、离线数据仓库。通过本项目的学习,可以掌握腾讯云 EMR 服务组件的使用和调优。

常见问题

  • 一般常见问题
  • 计费

使用弹性 MapReduce 相比传统 Hadoop 的优势是?

传统 Hadoop 使用中机器资源固定,绝大部分时间计算资源限制,利用云上的弹性 MapReduce 可以按需获取计算资源,利用计算存储分离,可以将计算资源的生命周期与存储资源的生命周期解耦。

如何在弹性 MapReduce 中实现计算存储分离?

什么是 Task 节点?是否需要数据盘?

更多问题请查看 常见问题,也可在 问答社区 中进行提问 。

我们致力于为您提供个性化的售前购买咨询服务,以及全面的技术售后服务。