HDFS对数据文件的访问通过流的方式进行处理, 这意味着通过命令和 MapReduce程序的方式可以直接使用 HDFS. HDFS 是容错的,且提供对大数据集的高吞吐量访问....HDFS 的一个非常重要的特点就是一次写入、多次读取,该模型降低了对并发控制的要求, 简化了数据聚合性, 支持高吞吐量访问.而吞吐量是大数据系统的一个非常重要的指标,吞吐量高意味着能处理的数据量就大....NameNode 是一个中心服务器, 单一节点(简化系统的设计和实现),负责管理文件系统的名字空间(NameSpace)以及客户端对文件的访问
文件操作, NameNode 是负责文件元数据的操作, DataNode...负责处理文件内容的读写请求, 跟文件内容相关的数据流不经过 NameNode,只询问它跟哪个 DataNode联系, 否则 NameNode 会成为系统的瓶颈
副本存放在哪些 DataNode 上由...NameNode 来控制,根据全局情况作出块放置决定, 读取文件时 NameNode尽量让用户先读取最近的副本, 降低读取网络开销和读取延时
NameNode 全权管理数据库的复制, 它周期性的从集群中的每个