前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Hadoop 概述

Hadoop 概述

作者头像
兮动人
发布2021-06-11 19:08:02
5470
发布2021-06-11 19:08:02
举报
文章被收录于专栏:兮动人的博客

1. Hadoop 介绍、发展简史

文章目录

1.1 狭义上Hadoop指的是Apache的一款开源软件。

  • 用java语言实现开源软件框架
  • 允许使用简单的编程模型跨计算机集群对大型数据集进行分布式处理

2.1 Hadoop核心组件

  • Hadoop HDFS(分布式文件存储系统)︰解决海量数据存储
  • Hadoop YARN(集群资源管理和任务调度框架)︰解决资源任务调度
  • Hadoop MapReduce (分布式计算框架)︰解决海量数据计算

3.1 官网:https://hadoop.apache.org/

4.1 广义上Hadoop指的是围绕Hadoop打造的大数据生态圈。

5.1 Hadoop发展简史

  • Hadoop之父:Doug Cutting
  • Hadoop起源于Apache Lucene子项目:Nutch Nutch的设计目标是构建一个大型的全网搜索引擎。遇到瓶颈∶如何解决数十亿网页的存储和索引问题
  • Google三篇论文
  1. 《The Google file system》︰谷歌分布式文件系统GFS
  2. 《MapReduce:Simplified Data Processing on Large Clusters》︰谷歌分布式计算框架
  3. MapReduce《Bigtable: A Distributed Storage System for Structured Data》︰谷歌结构化数据存储系统

6.1 总结

  • 狭义上Hadoop指软件广义上Hadoop指生态圈
  • Hadoop之父Doug cutting
  • Hadoop起源于Nutch项目
  • 受Google 3篇论文启发
  • 2008年开源给Apache软件基金会

2. Hadoop 特性优点、国内外应用

2.1 Hadoop 特性优点

2.1 Hadoop 国外应用

2.2 Hadoop 国内应用

2.3 总结

  • Hadoop成功的魅力——通用性 精准区分做什么和怎么做 做什么属于业务问题怎么做属于技术问题。 用户负责业务Hadoop负责技术
  • Hadoop成功的魅力——简单

3. Hadoop 发行版本、架构变迁

3.1 Hadoop 发行版本

3.2 Hadoop 发行版本

  • Apache开源社区版本:http://hadoop.apache.org/
  • 商业发行版本 Cloudera : https://www.cloudera.com/products/open-source/apache-hadoop.html Hortonworks : https://www.cloudera.com/products/hdp.html
  • 目前最新版本是 :3.2.2

4. Hadoop 架构变迁(1.0-2.0变迁)

  1. Hadoop 1.0 HDFS(分布式文件存储) MapReduce(资源管理和分布式数据处理)
  1. Hadoop 2.0 HDFS(分布式文件存储) MapReduce(分布式数据处理) YARN(集群资源管理、任务调度)

5. Hadoop 架构变迁(3.0新版本)

  • Hadoop 3.0架构组件和Hadoop 2.0类似,3.0着重于性能优化。
  • 通用 精简内核、类路径隔离、shell脚本重构
  • Hadoop HDFS EC纠删码、多NameNode支持
  • Hadoop MapReduce 任务本地化优化、内存参数自动推断
  • Hadoop YARN Timeline Service V2、队列配置
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2021/03/30 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. Hadoop 介绍、发展简史
    • 文章目录
      • 1.1 狭义上Hadoop指的是Apache的一款开源软件。
        • 2.1 Hadoop核心组件
          • 3.1 官网:https://hadoop.apache.org/
            • 4.1 广义上Hadoop指的是围绕Hadoop打造的大数据生态圈。
              • 5.1 Hadoop发展简史
                • 6.1 总结
                • 2. Hadoop 特性优点、国内外应用
                  • 2.1 Hadoop 特性优点
                    • 2.1 Hadoop 国外应用
                      • 2.2 Hadoop 国内应用
                        • 2.3 总结
                        • 3. Hadoop 发行版本、架构变迁
                          • 3.1 Hadoop 发行版本
                            • 3.2 Hadoop 发行版本
                            • 4. Hadoop 架构变迁(1.0-2.0变迁)
                            • 5. Hadoop 架构变迁(3.0新版本)
                            相关产品与服务
                            文件存储
                            文件存储(Cloud File Storage,CFS)为您提供安全可靠、可扩展的共享文件存储服务。文件存储可与腾讯云服务器、容器服务、批量计算等服务搭配使用,为多个计算节点提供容量和性能可弹性扩展的高性能共享存储。腾讯云文件存储的管理界面简单、易使用,可实现对现有应用的无缝集成;按实际用量付费,为您节约成本,简化 IT 运维工作。
                            领券
                            问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档