首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >Nutch API建议

Nutch API建议
EN

Stack Overflow用户
提问于 2010-12-03 05:37:41
回答 1查看 2.1K关注 0票数 6

我正在做一个项目,我需要一个成熟的爬虫来做一些工作,我正在为这个目的评估Nutch。我目前的需求相对简单:我需要一个能够将数据保存到磁盘的爬虫程序,并且我需要它能够仅重新爬取站点的更新资源,并跳过已经爬取的部分。有没有人有在Java中直接使用Nutch代码的经验,而不是通过命令行。我想从简单开始:创建一个爬虫(或类似的),最低限度地配置它并启动它,没有任何花哨的东西。有没有这方面的例子,或者我应该看看的资源?我正在浏览Nutch文档,但其中大部分都是关于命令行、搜索和其他东西的。在不需要索引和搜索的情况下,Nutch爬行模块的可用性如何?任何帮助都是非常感谢的。谢谢。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2010-12-03 21:47:54

Nutch可能与你曾经练习过的非常不同。因为它有点像一个框架,所以它不仅有查询和搜索的前端,尽管solr看起来比原生的Nutch搜索前端更强大。它还具有爬行部分和索引(到Lucene索引中)。

如果您希望将爬行用于搜索以外的其他目的,则需要开发您自己的程序,并熟悉Hadoop和MapReduce编程。

不知道你想用抓取做什么,但看起来Nutch不是解决方案

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/4340222

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档