, 用于可靠的存储海量数据;
-- MapReduce : 分布式处理数据模型, 可以运行于大型的商业云计算集群中;
-- Pig : 数据流语言 和 运行环境, 用来检索海量数据集;
-- HBase...用于构建分布式应用, 避免应用执行失败带来的不确定性损失;
-- Sqoop : 该工具可以用于 HBase 和 HDFS 之间的数据传输, 提高数据传输效率;
-- Common : 分布式文件系统,...和 输出, IO类型可以由程序员进行选择;
-- 两个函数 : map 函数 和 reduce 函数;
MapReduce作业组成 : 一个MapReduce 工作单元, 包括 输入数据, MapReduce...的输出直接输出到 HDFS中;
-- reduce数量 : reduce数量是特别指定的, 在配置文件中指定;
MapReduce数据流框图解析 :
-- 单个MapReduce的数据流 :..., 也没有使用JNI编程;
-- 工作原理 : Pipes 使用套接字作为 map 和 reduce 函数 进程之间的通信;