首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >在多台计算机上运行crawler4j

在多台计算机上运行crawler4j
EN

Stack Overflow用户
提问于 2014-05-11 08:57:23
回答 1查看 182关注 0票数 0

我正在尝试使用crawler4j实现一个爬虫。一切都很好直到:

  1. 我只运行了一份。
  2. 我不重新启动就连续运行它。

如果我重新启动爬虫,url的收集并不是唯一的。这是因为爬虫锁定根文件夹(存储中间爬虫数据并作为参数传递)。当爬虫重新启动时,它将删除根数据文件夹.的内容。

是否可以:

  1. 防止根数据文件夹锁定。(因此,我可以同时运行多个爬虫副本。)
  2. 重新启动后,根数据文件夹的内容不会删除。(这样我就可以在停下来后恢复爬行器了。)
EN

回答 1

Stack Overflow用户

发布于 2014-05-14 10:26:38

您可以尝试使用以下方法更改爬行器的配置:

代码语言:javascript
运行
复制
crawlConfig.setResumableCrawling(true); 

controller.java课堂上。

您可以跟踪此链接并看到Resumable爬行。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/23590747

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档