首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >Nutch的替代网络爬虫

Nutch的替代网络爬虫
EN

Stack Overflow用户
提问于 2010-11-25 01:24:06
回答 5查看 9.5K关注 0票数 20

我正在尝试建立一个专门的搜索引擎网站,索引有限数量的网站。我想出的解决方案是:

  • 使用Nutch作为网络爬虫,
  • 使用Solr作为搜索引擎,
  • 作为前端,站点逻辑使用Wicket编码。

问题是我发现Nutch相当复杂,而且它是一个需要定制的大软件,尽管有一个详细的文档(书籍,最近的教程..等)并不存在。

现在提出问题:

  1. 对这个网站的漏洞有什么建设性的批评吗?
  2. 有没有一个既好又简单的替代方案(作为网站的爬行部分)?

谢谢

EN

回答 5

Stack Overflow用户

发布于 2010-11-25 01:57:04

Scrapy是一个用于抓取网站的python库。它相当小(与Nutch相比),专为有限的站点爬行而设计。它有一种Django类型的MVC风格,我发现它很容易定制。

票数 4
EN

Stack Overflow用户

发布于 2011-02-27 22:35:27

对于爬行部分,我真的很喜欢anemonecrawler4j。它们都允许您为链接选择和页面处理添加自定义逻辑。对于您决定保留的每个页面,都可以轻松地添加对Solr的调用。

票数 4
EN

Stack Overflow用户

发布于 2014-05-02 16:38:20

这取决于有多少网站和你认为爬行的URL。Apache Nutch在Apache (依赖于Apache Hadoop)上存储页面文档,它很可靠,但是很难设置和管理。

由于爬虫只是一个页面抓取(如CURL)和检索链接列表,以馈送您的CURL数据库,我相信你可以自己编写一个爬虫(特别是如果你有几个网站),使用一个简单的MySQL数据库(可能是像RabbitMQ这样的队列软件来安排爬行作业)。

另一方面,爬虫可能会更复杂,你可能想从HTML文档中移除头部,只保留页面的真正“内容”,等等……

此外,Nutch可以使用PageRank算法对页面进行排序,您可以使用Apache Spark来做同样的事情(效率更高,因为Spark可以在内存中缓存数据)。

票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/4269632

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档