前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大数据概述----《大数据系列》

大数据概述----《大数据系列》

作者头像
用户3467126
发布2019-07-03 18:08:04
4300
发布2019-07-03 18:08:04
举报
文章被收录于专栏:爱编码
一、大数据之hadoop

学习框架最简单快捷的方法是看官网:http://hadoop.apache.org/

Hadoop是一个框架,它可以允许分布式处理大数据集可以用简单工程模式实现计算机集群。它涉及有一个简单服务器转换成千上万机器,每一个本地计算和存储。然而硬件传送高可用,框架自己可以监测和处理错误在应用层,所以传送高可用服务在计算机集群。

Hadoop项目主要包括以下几个模块:

1、hadoop通用模块:这是一个通用工具支持其他hadoop的模块。 2、HDFS:一个分布式文件系统,它提供高流量传递应用数据。 3、YARN:一个工作调度和资源管理的框架。 4、MapReduce:一个基于YARN之上的并行计算大数据集的计算框架。

hadooop家族图.png

二、Hadoop之HDFS

HDFS是一个主要的hadoop应用常用的分布式存储系统。一个HDFS主要包括一个NameNode和多个DataNodes。

1、NameNode是负责管理文件系统元数据, 2、DataNodes是存储真实的数据的

HDFS原理图.png

三、Hadoop之YARN

YARN是Hadoop 2.0中的资源管理系统,它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务:

1、ResourceManager负责整个系统的资源管理和分配 2、ApplicationMaster负责单个应用程序的管理。

YARN工作原理图.png

四、Hadoop之MapReduce

MapReduce是一个可以在可靠的,有容错性大数据集群上面并行的进行逻辑计算的计算框架。

一个MapReduce的作业通常分为输入数据集到独立原型,它可以处理map任务在完整的并行方法。它也可以对maps的输出进行排序,然后减少任务。通常地输入和输出作业是被存储到文件系统。它主要关注的是计划的任务和监控这些任务,如果任务失败了就重启这些任务。

通常地,计算节点和存储节点都是相同的,MapReduce框架和hdfs是运行在相同的节点上的。者配置可以使框架有效地安排任务在以前的数据在这个节点上,计算结果通过带宽整合到集群上。

MapReduce包含一个单主节点ResourceManager和一个从节点NodeManager ,按每一个应用都有的MRAppMaster最低限度,应用需要输入和输出位置和提供map方法和reduce方法实现接口或者抽象方法。

MapReduce.png

后面还有系列大数据总结。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-07-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 爱编码 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、大数据之hadoop
    • Hadoop项目主要包括以下几个模块:
    • 二、Hadoop之HDFS
    • 三、Hadoop之YARN
    • 四、Hadoop之MapReduce
    相关产品与服务
    对象存储
    对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档