首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >Nutch即时查询

Nutch即时查询
EN

Stack Overflow用户
提问于 2011-02-09 12:56:06
回答 1查看 214关注 0票数 0

我是纳奇和索尔的新手。相对来说,Solr比Nutch要新得多:)

在过去的两周里,我一直在使用nutch,我想知道我是否可以在我的nutch爬虫上进行查询或搜索(在它完成之前)。我之所以这样问,是因为我正在抓取的网站真的很大,抓取需要3-4天才能完成。我想在nutch爬虫还在抓取URL的时候分析一些快速结果。有人建议我,Solr会让它成为可能。

为此,我遵循了http://www.lucidimagination.com/blog/2009/03/09/nutch-solr/中的步骤。我看到Solr搜索中只显示了注入的URL。我知道我做了一件非常愚蠢的事情,爬行从来没有发生过,我觉得我遗漏了一些信息。但我做了链接中提到的所有步骤。我认为在这个过程中的某个地方应该会发生爬行,而这是遗漏的。

我只是想看看是否有人能帮我指出这一点,以及我在这个过程中哪里出了问题。请原谅我的愚蠢,感谢您的耐心。

干杯,艾比

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2011-02-11 15:12:08

这是不可能的。不过,您可以将爬网周期分块到较少的URL中,这样它就可以更频繁地使用以下命令发布结果

nutch generate crawl/crawldb crawl/segments -topN <the limit>

如果您使用的是onestop命令crawl,它应该是相同的。

我通常有一个24小时的分块计划。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/4941459

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档