我正在尝试使用crawler4j实现一个爬虫。一切都很好直到:
如果我重新启动爬虫,url的收集并不是唯一的。这是因为爬虫锁定根文件夹(存储中间爬虫数据并作为参数传递)。当爬虫重新启动时,它将删除根数据文件夹.的内容。
是否可以:
发布于 2014-05-14 10:26:38
您可以尝试使用以下方法更改爬行器的配置:
crawlConfig.setResumableCrawling(true);
在controller.java
课堂上。
您可以跟踪此链接并看到Resumable爬行。
https://stackoverflow.com/questions/23590747
复制相似问题