我正在做一个项目,我需要一个成熟的爬虫来做一些工作,我正在为这个目的评估Nutch。我目前的需求相对简单:我需要一个能够将数据保存到磁盘的爬虫程序,并且我需要它能够仅重新爬取站点的更新资源,并跳过已经爬取的部分。有没有人有在Java中直接使用Nutch代码的经验,而不是通过命令行。我想从简单开始:创建一个爬虫(或类似的),最低限度地配置它并启动它,没有任何花哨的东西。有没有这方面的例子,或者我应该看看的资源?我正在浏览Nutch文档,但其中大部分都是关于命令行、搜索和其他东西的。在不需要索引和搜索的情况下,Nutch爬行模块的可用性如何?任何帮助都是非常感谢的。谢谢。
发布于 2010-12-03 21:47:54
Nutch可能与你曾经练习过的非常不同。因为它有点像一个框架,所以它不仅有查询和搜索的前端,尽管solr看起来比原生的Nutch搜索前端更强大。它还具有爬行部分和索引(到Lucene索引中)。
如果您希望将爬行用于搜索以外的其他目的,则需要开发您自己的程序,并熟悉Hadoop和MapReduce编程。
不知道你想用抓取做什么,但看起来Nutch不是解决方案
https://stackoverflow.com/questions/4340222
复制相似问题