前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Hadoop简介

Hadoop简介

作者头像
WindCoder
发布2020-01-21 16:29:20
5460
发布2020-01-21 16:29:20
举报
文章被收录于专栏:WindCoderWindCoder

Apache Hadoop是一款用于可靠,可扩展的分布式计算的开源软件。

Apache Hadoop软件库是一个允许使用简单的编程模型跨计算机集群分布式处理大型数据集的框架。它旨在从单个服务器扩展到数千台计算机,每台计算机都提供本地计算和存储。

Hadoop本身不是依靠硬件来提供高可用性,而是设计用于检测和处理应用程序层的故障,从而在计算机集群之上提供高可用性服务,每个计算机都可能容易出现故障。

Hadoop框架包括以下四个模块:

  • Hadoop Common: 支持其他Hadoop模块的常用实用程序。
  • Hadoop Distributed File System (HDFS™): 一种分布式文件系统,提供对应用程序数据的高吞吐量访问。
  • Hadoop YARN: 作业调度和集群资源管理的框架。
  • Hadoop MapReduce: 基于YARN的用于并行处理大型数据集的系统。

最近在官方首页出现了一个新的模块Hadoop Ozone,其功能是提供Hadoop的对象存储。目前处于alpha版本,docs文档中暂未提及。

优点

  • 高可靠性:Hadoop 按位存储和处理数据的能力值得人们信赖。
  • 高可扩展性: Hadoop 是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以干计的节点中。
  • 高效性: Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
  • 高容错性: Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分。
  • 低成本:与一体机、商用数据仓库以及 QlikView、 Yonghong Z- Suites 等数据集市相比,Hadoop 是开源的,项目的软件成本因此会大大降低。
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2018-10-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 优点
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档