我正在运行Nutch 1.4/Solr 4.10来索引许多站点。我的爬虫包括一些带有数百个链接的种子页面。我目前运行的是
-topN 400 -depth 20
使用这些设置,完成抓取需要5-7个小时。我希望"nutch crawl“的每个单独迭代花费较少的时间,但我需要确保所有页面最终都被爬行。我是否可以减少我的-topN或-depth值,同时仍然确保所有页面都将被抓取?
发布于 2016-10-11 22:37:40
更改深度(实际上应该有一个不同的名称,这是迭代的次数,通常与深度相同,但不一定)不会有太大的不同,因为一旦没有更多的URL可供获取,爬行器就会停止迭代。topN限制了每个段的URL总数:如果你设置一个较低的值,将会进行更多的迭代,但作为一个整体,它应该不会影响爬行所需的时间。
有许多因素影响爬行see WIKI的速度,但这仅仅是主机多样性和礼貌的问题。我建议您在伪分布式模式下运行Nutch,并使用Hadoop UI来了解哪些步骤需要时间并从那里开始。
PS:这是Nutch的一个非常老的版本。也许是时候升级到更新的版本了?
https://stackoverflow.com/questions/39977193
复制相似问题