专栏首页技术专栏慕课网Spark SQL日志分析 - 1.Hadoop概述

慕课网Spark SQL日志分析 - 1.Hadoop概述

1.Hadoop架构

  • 官方网址

http://hadoop.apache.org/ 对于Apache项目来说,projectname.apache.org Hadoop:hadoop.apache.org Hive:hive.apache.org Spark:spark.apache.org HBase:hbase.apache.org

  • 为什么很多公司选择Hadoop作为大数据的解决方案
  1. 源码开发
  2. 社区活跃
  3. 设计到分布式存储和计算的方方面面 Flume进行数据采集 Spark/MR/Hive等进行数据处理 HDFS/HBase进行数据存储 4)已得到企业界的认证

2.HDFS架构

官方文档:http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html

1 master(NameNode/NN) 带 n个 slaves(DataNode/DN)

一个文件会被拆分成多个Block blocksize:128M 130M -> 2个block:128M+2M

NN的作用:

  1. 负责客户端请求的相应
  2. 负责元数据(文件的名称,副本系数,Block存放的DN)的管理

DN的作用:

  1. 存储用户的文件对应的数据块(Block)
  2. 要定期向NN发送心跳信息,汇报本身及其所有的block信息,健康状况

A typical deployment has a dedicated machine that runs only the NameNode software .Each of the other machines in the cluster runs one instance of the DataNode Software. The architecture does not preclude running multiple DataNode on the same machine but in a real deployment that is rarely in case

NameNode + N个DataNode 建议NN和DN是部署在不同的机器上

3.HDFS 副本机制:

replication factor:副本因子

All blocks in a file except the last block are the same size

4.Hadoop 下载 :https://www.jianshu.com/p/f3943e0aa906

5.Yarn 简介: https://www.jianshu.com/p/2f63ab16ca98

6.Hive概述

https://www.jianshu.com/p/a2d1da61bdad

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 基本排序算法

    ● 基础 ● 编码简单,易于实现,是一些简单情景的首选 ● 在一些特殊情况下,简单的排序算法更有效 ● 简单的排序算法思想衍生出复杂的排序算法 ● 作为...

    Meet相识
  • MapReduce学习笔记

    wordcount: 统计文件中每个单词出现的次数需求:1) 文件内容小:shell2)文件内容很大:TB GB ??? 如何解决大数据量的统计分析==> ur...

    Meet相识
  • 慕课网Spark SQL日志分析 - 4.从Hive平滑过渡到Spark SQL

    老版本文档:http://spark.apache.org/docs/1.6.1/

    Meet相识
  • 精选VS Code高频插件,让你多陪陪npy!

    高亮显示你的 TODO、FIXME,支持自定义关键字和外观,可以起到良好的提示作用。

    刘小夕
  • 数学--数论--HDU 2136(素数筛选法)

    Everybody knows any number can be combined by the prime number. Now, your task ...

    风骨散人Chiam
  • 迷失在10万+中的“二更食堂”们何去何从?

    因为众所周知的原因,明星内容创业机构二更遭遇了成立以来最大的舆论危机,二更创始人丁丰也“经历了人生中最痛苦的时刻”,经过两天反思后宣布永久关停二更食堂,停止二更...

    罗超频道
  • 强化学习(五)用时序差分法(TD)求解

        在强化学习(四)用蒙特卡罗法(MC)求解中,我们讲到了使用蒙特卡罗法来求解强化学习问题的方法,虽然蒙特卡罗法很灵活,不需要环境的状态转化概率模型,但是它...

    刘建平Pinard
  • cypress e2e 测试神器 安装使用及语法

    cypress 我们直接去Cypress的官网,根据教程我们先进入我们项目的根目录,执行npm install cypress --save-dev,在安装完成...

    余生
  • 新一代互联网视频压缩AV1最新进展【2017.8】

    前几天,开放媒体联盟(AOM,Alliance for Open Media)举行了董事会议,对AV1编解码器的发布日期进行了讨论,Netflix和YouTub...

    用户1324186
  • python爬虫小工具--快速获得请求头

    我们在写爬虫脚本的时候经常要获取请求头,但是每次从浏览器粘贴到代码里时,都要费一番功夫来处理格式。

    渔父歌

扫码关注云+社区

领取腾讯云代金券