专栏首页云上大数据EMR入门学习之EMR初步介绍(一)
原创

EMR入门学习之EMR初步介绍(一)

一、EMR简介


Elastic MapReduce(EMR)是腾讯云提供的云上 Hadoop 托管服务,提供了便捷的 Hadoop 集群部署、软件安装、配置修改、监控告警、弹性伸缩等功能,EMR部署在腾讯云平台(CVM)上,配合消息中间件、CDB等产品为企业提供了一套较为完善的大数据处理方案。如下图所示为EMR系统架构图:

二、EMR产品优势


1、灵活

与传统的本地化部署的Hadoop集群对比,EMR只需几分钟即可获得一个安全可靠的 Hadoop 集群,以运行 Hive、Spark、Presto 等主流开源大数据计算框架。

可对一个已有的弹性 MapReduce 集群进行快速的弹性伸缩,以在变动的业务部门数据分析需求与高昂 IT 硬件成本之间快速获得平衡点。

2、可靠

Master 节点容灾设计,备节点秒级拉起,保障大数据服务可用性。

完善的监控体系建设,您可以通过短信渠道秒级感知集群组件及任务的运行异常状况。

支持将 Hive 元数据存放于 TencentDB,元数据可靠性达99.9996%。

支持分析存放于 COS 的高存储耐久性的 PB 级数据。

集群默认开启回收站功能。

3、安全

可通过便捷的 VPC 网络安全隔离手段规划托管 Hadoop 集群网络策略,支持网络 ACL 和安全组,可从子网和主机维度筛选流量,全方位满足网络安全需求。

腾讯云品质的安全加固服务为 EMR 集群提供一体化的安全服务,涵盖网络防护、入侵检测、漏洞防护等。

4、易用

可以响应业务需求创建不同版本的集群分析 COS 上的同一份数据。

可以借助开箱即用的 Hue、Oozie 等社区组件随心分析位于数据节点或 COS 上的 PB 级数据,无需担心产生任何知识迁移成本。

5、节约成本

通过 EMR 服务,可以按业务曲线随心伸缩托管 Hadoop 集群,缩减高昂的硬件成本。

丰富的运维工具支持,大幅提升运维工作效率,让工程师更专注于业务本身的商业价值,摆脱重复搭建监控、安全、运维工具等基础设施。

三、功能特性


1、弹性 MapReduce 的软件完全源于开源社区中的 Hadoop 软件,您可以将现有的大数据集群无缝平滑迁移至腾讯云上。它集成了Hadoop生态圈中常用的组件,例如:

分布式存储 hdfs

计算引擎 mapreduce、tez、spark

数据仓库 hive、presto

流式处理 sparkstreaming、flink、storm

列式数据库 hbase、phoenix

等社区中常见的热门组件,包括但不限于 Hive、Hbase、Spark、Presto、Sqoop、Hue 等,可以满足您对大数据的离线处理、流式计算等全方位需求。

2、弹性 MapReduce 无缝集成了腾讯云对象存储(COS)服务,您可将原本存储于 HDFS 中的文件放置在可无限扩展、存储成本低且高可靠的 COS 中,实现计算存储分离。依托于 COS,您可以在需要的时候创建集群,并在任务完成后销毁集群。与此同时,您无需担心数据的丢失。按需创建的集群,可以大幅度降低您的大数据处理成本。

3、弹性 MapReduce 采用了5种节点类型:Master 节点、Core 节点、Task 节点、Router 节点和 Common 节点。各类型节点作用,如下图:

Master 节点为管理节点,保证集群的调度正常进行。

Core 节点为计算及存储节点,您在 HDFS 中的数据全部存储于 Core 节点中,因此为了保证数据安全,扩容Core 节点后不允许缩容。

Task 节点为纯计算节点,不存储数据,被计算的数据来自 Core 节点及 COS 中,因此 Task 节点往往被作为弹性节点,可随时扩容和缩容。

Common 节点为 HA 集群 Master 节点提供数据共享同步以及高可用容错服务。

Router 节点用以分担 Master 节点的负载或者作为集群的任务提交机,可以随时扩容和缩容。

4、弹性 MapReduce 目前支持了众多资源规格,您可以采用 EMR 标准型、内存型、高 IO、计算型及大数据机型实例作为计算资源。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • EMR入门学习之创建EMR集群(二)

    集群是弹性 MapReduce( EMR )提供托管 服务的基本单元,也是用户使用和管理 EMR 服务的主要对象。本文为您介绍通过腾讯云官网控制台,快速创建 E...

    和大数据一起走过的路程
  • EMR入门学习之EMR集群的常用操作(三)

    前言:上一篇我们了解了EMR集群的搭建,也了解到了集群节点的基本规格和硬件配置,那么本篇我们将学习一些集群的一些常用操作,比如集群的扩容、缩容以及COS对象存储...

    和大数据一起走过的路程
  • EMR入门学习之HDFS的运维操作(十三)

    HDFS是分布式文件系统。HDFS支持fsck命令来检查系统中的各种不一致状况。我们可以使用fsck 来查看当前文件系统的状态。该命令提供了若干选项,不同选项完...

    和大数据一起走过的路程
  • Redis 复制过程详解

    Redis 的复制功能分为同步( sync )和命令传播( command propagate )两个步骤:

    remcarpediem
  • Redis 复制过程详解

    Redis 的复制功能分为同步( sync )和命令传播( command propagate )两个步骤:

    remcarpediem
  • 重温数据结构:树 及 Java 实现

    数据结构,指的是数据的存储形式,常见的有线性结构(数组、链表,队列、栈),还有非线性结构(树、图等)。 今天我们来学习下数据结构中的 树。 什么是树 线性结构中...

    张拭心 shixinzhang
  • 如何入职京东、华为、IBM等大厂?你需要学懂这门语言

    Hyperledger 是当前业界较为认可的联盟链实现,作为其最重要的子项目,Fabric 自然也备受关注。从开始孵化到发展至今,Fabric 的架构设计也在演...

    区块链大本营
  • 从七桥问题开始:全面介绍图论及其应用

    选自Medium 作者:Vardan Grigoryan 机器之心编译 图论是计算机科学中最重要、最有趣的领域之一,同时也是最容易被误解的。本长文从图论最基础的...

    机器之心
  • 【算法】堆排序学习笔记

    参考资料 《算法(第4版)》          — — Robert Sedgewick, Kevin Wayne 什么是二叉堆 在了解堆排序之前, 最重要的当...

    外婆的彭湖湾
  • 分布式初探——分布式事务与两阶段提交协议

    今天的文章咱们聊的是分布式原理当中的原子性,也称为分布式事务。不知道会不会有人觉得奇怪,分布式系统CAP原则当中并没有原子性,这个原子性是从哪里冒出来的?

    TechFlow-承志

扫码关注云+社区

领取腾讯云代金券