慕课网Spark SQL日志分析 - 1.Hadoop概述

1.Hadoop架构

  • 官方网址

http://hadoop.apache.org/ 对于Apache项目来说,projectname.apache.org Hadoop:hadoop.apache.org Hive:hive.apache.org Spark:spark.apache.org HBase:hbase.apache.org

  • 为什么很多公司选择Hadoop作为大数据的解决方案
  1. 源码开发
  2. 社区活跃
  3. 设计到分布式存储和计算的方方面面 Flume进行数据采集 Spark/MR/Hive等进行数据处理 HDFS/HBase进行数据存储 4)已得到企业界的认证

2.HDFS架构

官方文档:http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html

1 master(NameNode/NN) 带 n个 slaves(DataNode/DN)

一个文件会被拆分成多个Block blocksize:128M 130M -> 2个block:128M+2M

NN的作用:

  1. 负责客户端请求的相应
  2. 负责元数据(文件的名称,副本系数,Block存放的DN)的管理

DN的作用:

  1. 存储用户的文件对应的数据块(Block)
  2. 要定期向NN发送心跳信息,汇报本身及其所有的block信息,健康状况

A typical deployment has a dedicated machine that runs only the NameNode software .Each of the other machines in the cluster runs one instance of the DataNode Software. The architecture does not preclude running multiple DataNode on the same machine but in a real deployment that is rarely in case

NameNode + N个DataNode 建议NN和DN是部署在不同的机器上

3.HDFS 副本机制:

replication factor:副本因子

All blocks in a file except the last block are the same size

4.Hadoop 下载 :https://www.jianshu.com/p/f3943e0aa906

5.Yarn 简介: https://www.jianshu.com/p/2f63ab16ca98

6.Hive概述

https://www.jianshu.com/p/a2d1da61bdad

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏祝威廉

Spark Streaming 数据接收优化

看这篇文章前,请先移步Spark Streaming 数据产生与导入相关的内存分析, 文章重点讲的是从Kafka消费到数据进入BlockManager的这条线路...

10910
来自专栏算法channel

hadoop|计算框架从MapReduce1.0到Yarn

01 — HDFS 前面介绍了hadoop的分布式存储框架(HDFS),这个框架解决了大数据存储的问题,这是第一步。知道海量数据如何存储后,脚步不能停留,下一步...

42560
来自专栏王小雷

Hadoop YARN学习之核心概念(2)

Hadoop YARN学习之核心概念(2) 1. Hadoop 2.X YARN引入的新服务 1.1 新的ResourceManager纯碎作为资源调度器,是集...

270100
来自专栏CSDN技术头条

大数据技术Hadoop面试题,看看你能答对多少?答案在后面

单项选择题 1. 下面哪个程序负责 HDFS 数据存储。 a)NameNode b)Jobtracker c)Datanode d)secondaryNameN...

314100
来自专栏用户画像

Spark Streaming

Spark Streaming 是spark提供的对实时数据进行流式计算的组件。比如生产环境中的网页服务器日志,或者网络服务中用户提交的状态更新组成的消息队列,...

23520
来自专栏编程

大数据干货系列(六)-Spark总结

本文共计1611字,预计阅读时长八分钟 Spark总结 一、本质 Spark是一个分布式的计算框架,是下一代的MapReduce,扩展了MR的数据处理流程 二、...

22050
来自专栏Albert陈凯

第三章 Spark机制与原理

循序渐进学Spark 本书前面几章分别介绍了Spark的生态系统、Spark运行模式及Spark的核心概念RDD和基本算子操作等重要基础知识。 本章重点讲解Sp...

36260
来自专栏Hadoop实操

HOSTS配置问题导致集群异常故障分析

CM节点上的所有服务的角色日志不能正常通过ClouderaManager控制台查看,显示如下错误:

49590
来自专栏Hadoop实操

Cloudera Enterprise 6正式发布

2.针对CDH各个组件以及Cloudera Manager本身的自动化的TLS设置安装。

82820
来自专栏编程

Spark踩坑记:Spark Streaming+kafka应用及调优

作者:肖力涛 前言 在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消...

23150

扫码关注云+社区

领取腾讯云代金券