首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >商业上最好的网络爬虫?

商业上最好的网络爬虫?
EN

Stack Overflow用户
提问于 2012-06-21 10:55:07
回答 1查看 823关注 0票数 1

我正在开发一个爬行数以千万计的网页的系统,它将继续运行。我宁愿不从头开始开发爬虫。

哪些开源网络爬虫符合以下标准:

customized

  • highly

  • 可以是可伸缩的
  • 可以轻松抓取ajax网站
  • 爬行intelligently
  • obeys礼貌

如果我错过了任何一个,请评估其他你认为重要的标准。

我有以下开源爬虫的列表。他们是否具备上述特征?

  1. Scrapy
  2. Mechanize
  3. Nutch
  4. Heritrix
  5. flax
  6. httrack
  7. Spidher
  8. Searcharoo
EN

回答 1

Stack Overflow用户

发布于 2012-07-10 23:05:41

我已经和nutch合作了很长一段时间了,看起来它很适合这个标准。插件系统允许你抓取新的材料和易于部署。有一件事我有困难,就是让它使用多个代理,但总的来说,它是非常可定制的。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/11136637

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档