问Nutch即时查询
EN

Stack Overflow用户

提问于 2011-02-09 12:56:06

回答 1查看 214关注 0票数 0

我是纳奇和索尔的新手。相对来说，Solr比Nutch要新得多:)

在过去的两周里，我一直在使用nutch，我想知道我是否可以在我的nutch爬虫上进行查询或搜索(在它完成之前)。我之所以这样问，是因为我正在抓取的网站真的很大，抓取需要3-4天才能完成。我想在nutch爬虫还在抓取URL的时候分析一些快速结果。有人建议我，Solr会让它成为可能。

为此，我遵循了http://www.lucidimagination.com/blog/2009/03/09/nutch-solr/中的步骤。我看到Solr搜索中只显示了注入的URL。我知道我做了一件非常愚蠢的事情，爬行从来没有发生过，我觉得我遗漏了一些信息。但我做了链接中提到的所有步骤。我认为在这个过程中的某个地方应该会发生爬行，而这是遗漏的。

我只是想看看是否有人能帮我指出这一点，以及我在这个过程中哪里出了问题。请原谅我的愚蠢，感谢您的耐心。

干杯，艾比

solr

nutch

回答 1

Stack Overflow用户

回答已采纳

发布于 2011-02-11 15:12:08

这是不可能的。不过，您可以将爬网周期分块到较少的URL中，这样它就可以更频繁地使用以下命令发布结果

nutch generate crawl/crawldb crawl/segments -topN <the limit>

如果您使用的是onestop命令crawl，它应该是相同的。

我通常有一个24小时的分块计划。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/4941459

复制

相似问题

问Nutch即时查询
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Nutch即时查询EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Nutch即时查询
EN