首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >使用nutch crawl,如果我为-topN和-depth使用较小的值,它仍然会爬行所有相同的页面吗?

使用nutch crawl,如果我为-topN和-depth使用较小的值,它仍然会爬行所有相同的页面吗?
EN

Stack Overflow用户
提问于 2016-10-11 20:24:50
回答 1查看 115关注 0票数 0

我正在运行Nutch 1.4/Solr 4.10来索引许多站点。我的爬虫包括一些带有数百个链接的种子页面。我目前运行的是

代码语言:javascript
运行
复制
-topN 400 -depth 20

使用这些设置,完成抓取需要5-7个小时。我希望"nutch crawl“的每个单独迭代花费较少的时间,但我需要确保所有页面最终都被爬行。我是否可以减少我的-topN或-depth值,同时仍然确保所有页面都将被抓取?

EN

回答 1

Stack Overflow用户

发布于 2016-10-11 22:37:40

更改深度(实际上应该有一个不同的名称,这是迭代的次数,通常与深度相同,但不一定)不会有太大的不同,因为一旦没有更多的URL可供获取,爬行器就会停止迭代。topN限制了每个段的URL总数:如果你设置一个较低的值,将会进行更多的迭代,但作为一个整体,它应该不会影响爬行所需的时间。

有许多因素影响爬行see WIKI的速度,但这仅仅是主机多样性和礼貌的问题。我建议您在伪分布式模式下运行Nutch,并使用Hadoop UI来了解哪些步骤需要时间并从那里开始。

PS:这是Nutch的一个非常老的版本。也许是时候升级到更新的版本了?

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/39977193

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档