Hadoop是一个分布式系基础框架,它允许使用简单的编程模型跨大型计算机的大型数据集进行分布式处理.
它主要解决两个问题
大数据存储问题: HDFS
大数据计算问题:MapReduce
假设一个文件非常非常大,大小为1PB/a.txt, 大到世界上所有的高级计算机都存储不下, 怎么办?
HDFS
节点HDFS Master
Master
开始从一个网络日志文件中计算独立 IP, 以及其出现的次数 如果数据量特别大,我们可以将,整个任务拆开, 划分为比较小的任务, 从而进行计算呢。
如果能够在不同的节点上并行执行, 更有更大的提升, 如何把这些任务跑在集群中?
Yarn
Master
, 用于接收和分配任务Slave
, 用于运行任务