问使用nutch crawl，如果我为-topN和-depth使用较小的值，它仍然会爬行所有相同的页面吗？
EN

Stack Overflow用户

提问于 2016-10-11 20:24:50

回答 1查看 115关注 0票数 0

我正在运行Nutch 1.4/Solr 4.10来索引许多站点。我的爬虫包括一些带有数百个链接的种子页面。我目前运行的是

-topN 400 -depth 20

使用这些设置，完成抓取需要5-7个小时。我希望"nutch crawl“的每个单独迭代花费较少的时间，但我需要确保所有页面最终都被爬行。我是否可以减少我的-topN或-depth值，同时仍然确保所有页面都将被抓取？

发布于 2016-10-11 22:37:40

更改深度(实际上应该有一个不同的名称，这是迭代的次数，通常与深度相同，但不一定)不会有太大的不同，因为一旦没有更多的URL可供获取，爬行器就会停止迭代。topN限制了每个段的URL总数:如果你设置一个较低的值，将会进行更多的迭代，但作为一个整体，它应该不会影响爬行所需的时间。

有许多因素影响爬行see WIKI的速度，但这仅仅是主机多样性和礼貌的问题。我建议您在伪分布式模式下运行Nutch，并使用Hadoop UI来了解哪些步骤需要时间并从那里开始。

PS:这是Nutch的一个非常老的版本。也许是时候升级到更新的版本了？

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/39977193

复制

相似问题

问使用nutch crawl，如果我为-topN和-depth使用较小的值，它仍然会爬行所有相同的页面吗？EN