hadoop是 Doug Cutting 在 Lucene 之后的一个项目 主要用于 计算 是一个 开源,可靠,可扩展 的分布式计算框架 主要有
当然,hadoop1 和 hadoop2 的一些名词有变化 但是,对应的实现,是没有太大区别的 好处是,可以多台机器同时处理,通过心跳去及时获取计算结果
一般可以用于
对应的hadoop生态圈
hadoop生态图
Hadoop Common
namenode
datanode
secondnamenode
yarn (Yet Another Resource Negotiator,另一种资源协调者) 整个集群的资源调度,同时监控 比如,一个任务需要的cpu,内存等 这里ResourceManager是总的管理者,所有nodemanager的都由它管理 nodemanager一般都在不同的机器上
一般流程
Map任务
Reduce任务