我是纳奇和索尔的新手。相对来说,Solr比Nutch要新得多:)
在过去的两周里,我一直在使用nutch,我想知道我是否可以在我的nutch爬虫上进行查询或搜索(在它完成之前)。我之所以这样问,是因为我正在抓取的网站真的很大,抓取需要3-4天才能完成。我想在nutch爬虫还在抓取URL的时候分析一些快速结果。有人建议我,Solr会让它成为可能。
为此,我遵循了http://www.lucidimagination.com/blog/2009/03/09/nutch-solr/中的步骤。我看到Solr搜索中只显示了注入的URL。我知道我做了一件非常愚蠢的事情,爬行从来没有发生过,我觉得我遗漏了一些信息。但我做了链接中提到的所有步骤。我认为在这个过程中的某个地方应该会发生爬行,而这是遗漏的。
我只是想看看是否有人能帮我指出这一点,以及我在这个过程中哪里出了问题。请原谅我的愚蠢,感谢您的耐心。
干杯,艾比
发布于 2011-02-11 15:12:08
这是不可能的。不过,您可以将爬网周期分块到较少的URL中,这样它就可以更频繁地使用以下命令发布结果
nutch generate crawl/crawldb crawl/segments -topN <the limit>
如果您使用的是onestop命令craw
l,它应该是相同的。
我通常有一个24小时的分块计划。
https://stackoverflow.com/questions/4941459
复制相似问题