问在多台计算机上运行crawler4j
EN

Stack Overflow用户

提问于 2014-05-11 08:57:23

回答 1查看 182关注 0票数 0

我正在尝试使用crawler4j实现一个爬虫。一切都很好直到：

如果我重新启动爬虫，url的收集并不是唯一的。这是因为爬虫锁定根文件夹(存储中间爬虫数据并作为参数传递)。当爬虫重新启动时，它将删除根数据文件夹.的内容。

是否可以：

发布于 2014-05-14 10:26:38

您可以尝试使用以下方法更改爬行器的配置：

crawlConfig.setResumableCrawling(true);

在controller.java课堂上。

您可以跟踪此链接并看到Resumable爬行。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/23590747

复制

相似问题

问在多台计算机上运行crawler4jEN