hadoop仅仅被用作数据处理吗?Hadoop的主要优点是能够在不同的机器上读取相同的文件,并在那里对其进行处理,然后进行缩减。
使用MongoDB和Hadoop适配器,我们可以在每个节点上处理数据,但数据仍然来自一台MongoDb机器(磁盘)。因此,在10个Hadoop节点的帮助下,10 on的搜索可以与没有Hadoop的情况下完全相同(只需在mongodb机器上)
对我来说,这看起来像是一个瓶颈。我说的对吗?
发布于 2013-04-19 04:42:40
不,Hadoop实际上是两个东西,HDFS(存储层)和Mapreduce(处理层)。
仅文件的一部分,而不是整个文件。当您在HDFS中存储文件时,它首先被分成64M的块(默认的,但可配置的),然后每个块以复制的方式存储在不同的机器上。每个块都是在它所在的机器上读取的,并与其他机器上的其他块并行处理。
为什么您要先将MongoDB数据移到Hadoop群集中再进行处理?您可以很好地使用分片和MapReduce来以分布式方式处理MongoDB数据。您可能会发现这个link很有用。
https://stackoverflow.com/questions/16092178
复制相似问题