问MongoDB和Hadoop基础知识
EN

Stack Overflow用户

提问于 2013-04-19 04:11:11

回答 1查看 328关注 0票数 0

hadoop仅仅被用作数据处理吗？Hadoop的主要优点是能够在不同的机器上读取相同的文件，并在那里对其进行处理，然后进行缩减。

使用MongoDB和Hadoop适配器，我们可以在每个节点上处理数据，但数据仍然来自一台MongoDb机器(磁盘)。因此，在10个Hadoop节点的帮助下，10 on的搜索可以与没有Hadoop的情况下完全相同(只需在mongodb机器上)

对我来说，这看起来像是一个瓶颈。我说的对吗？

发布于 2013-04-19 04:42:40

不，Hadoop实际上是两个东西，HDFS(存储层)和Mapreduce(处理层)。

仅文件的一部分，而不是整个文件。当您在HDFS中存储文件时，它首先被分成64M的块(默认的，但可配置的)，然后每个块以复制的方式存储在不同的机器上。每个块都是在它所在的机器上读取的，并与其他机器上的其他块并行处理。

为什么您要先将MongoDB数据移到Hadoop群集中再进行处理?您可以很好地使用分片和MapReduce来以分布式方式处理MongoDB数据。您可能会发现这个link很有用。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/16092178

复制

相似问题

问MongoDB和Hadoop基础知识EN