首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >支持windows增量爬行的Web爬虫

支持windows增量爬行的Web爬虫
EN

Stack Overflow用户
提问于 2014-09-22 12:13:13
回答 1查看 946关注 0票数 1
  • 我需要一个开源的web爬虫在java开发的增量爬行支持。
  • Web爬虫应该易于定制,并与solr或elasticsearch集成。
  • 它应该是一个积极的,正在进一步发展,更多的特点。
  • 孔径是一个很好的爬虫,它有我提到的所有功能,但它不是一个活动的爬虫,由于许可(如果我使用它的商业目的),他们的依赖性,我忽略了。
  • Nutch -一个网络爬虫,有更多的hadoop支持功能。但是我浏览了很多网站和教程,没有合适的文档,api可以在windows中通过编程方式定制它。我可以在eclipse中编辑代码,但它在运行map时会导致许多错误,减少作业。nutch没有java来实现类似孔径的功能。
  • Crawl4j是一个很好的网络爬虫,但是它没有增量爬行功能,我也没有检查过许可问题。

是否有任何其他爬虫具有我提到的所有特性,或者有任何方法使用上述任何一个爬虫满足我的需求?

有帮助的答案将不胜感激。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-10-11 07:21:17

看起来是Norconex HTTP收集器的完美匹配

  • 它是100%用Java编写的。
  • 它完全在Windows上运行(不需要Cygwin或Linux/Unix )。
  • 它有大量的例子和一个问问题/提出问题的论坛(github)。
  • 它支持增量爬行,检测修改的文档以及删除的文档。
  • 它既支持Solr和Elasticsearch,也支持更多内容(通过使用它的“委员会”)。
  • 它具有广泛的可配置性/灵活性。它很容易与它集成并为它提供自定义特性,而无需学习复杂的插件机制(实现一个接口,将它放入类路径和voilà)。
  • 它的发展非常活跃。

它是由Norconex,一个企业搜索专业人员的公司维护的。问题迅速得到解决。版本2.0.0正在大量工作,很快就带来了许多新特性(语言检测、文档拆分等)。

这是GPL,但Norconex提供了一个商业许可,如果GPL是一个问题。

它还有许多你没有列出的其他功能,比如在将文档内容发送到搜索引擎之前操纵它的能力。它还支持站点地图、机器人规则等。我请您尝试一下:http://www.norconex.com/product/collector-http/

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/25973854

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档