这更多的是一个架构问题,您将如何在规模上解决这个问题。
假设您有一个数百万单词的列表,您需要搜索这数百万单词是否存在于一个数万亿单词的集合中。
例如,:
Word_List =
["This", "a", "test", "of", "two", "words","what","words"]
The_corpus =
["This", "a", "test", "of", "two", "words","what","words","blah","blah2"] 在上面的示例中,word_list中的所有单词都在the_corpus中找到,因此我们的函数将返回true。请注意,“单词”必须出现两次。
我想知道我们能否通过在集群上分发the_corpus并编写Mapper和Reducer来检查单词是否存在于语料库中来解决这个问题,但我不知道word_list将如何分布。我不能将word_list保存在主节点上,因为它太大了。
发布于 2017-02-21 00:51:49
猜测您的问题是如何使用在集群节点之间以某种方式分区的集群来加速搜索。在这里,我概述了我会做什么。
https://stackoverflow.com/questions/42335551
复制相似问题