我正在开发一个爬行数以千万计的网页的系统,它将继续运行。我宁愿不从头开始开发爬虫。
哪些开源网络爬虫符合以下标准:
customized
如果我错过了任何一个,请评估其他你认为重要的标准。
我有以下开源爬虫的列表。他们是否具备上述特征?
发布于 2012-07-10 23:05:41
我已经和nutch合作了很长一段时间了,看起来它很适合这个标准。插件系统允许你抓取新的材料和易于部署。有一件事我有困难,就是让它使用多个代理,但总的来说,它是非常可定制的。
https://stackoverflow.com/questions/11136637
复制相似问题