问Nutch的替代网络爬虫
EN

Stack Overflow用户

提问于 2010-11-25 01:24:06

回答 5查看 9.5K关注 0票数 20

我正在尝试建立一个专门的搜索引擎网站，索引有限数量的网站。我想出的解决方案是：

使用Nutch作为网络爬虫，
使用Solr作为搜索引擎，
作为前端，站点逻辑使用Wicket编码。

问题是我发现Nutch相当复杂，而且它是一个需要定制的大软件，尽管有一个详细的文档(书籍，最近的教程..等)并不存在。

现在提出问题：

对这个网站的漏洞有什么建设性的批评吗？
有没有一个既好又简单的替代方案(作为网站的爬行部分)？

谢谢

search-engine

web-crawler

nutch

回答 5

Stack Overflow用户

发布于 2010-11-25 01:57:04

Scrapy是一个用于抓取网站的python库。它相当小(与Nutch相比)，专为有限的站点爬行而设计。它有一种Django类型的MVC风格，我发现它很容易定制。

票数 4

Stack Overflow用户

发布于 2011-02-27 22:35:27

对于爬行部分，我真的很喜欢anemone和crawler4j。它们都允许您为链接选择和页面处理添加自定义逻辑。对于您决定保留的每个页面，都可以轻松地添加对Solr的调用。

票数 4

Stack Overflow用户

发布于 2014-05-02 16:38:20

这取决于有多少网站和你认为爬行的URL。Apache Nutch在Apache (依赖于Apache Hadoop)上存储页面文档，它很可靠，但是很难设置和管理。

由于爬虫只是一个页面抓取(如CURL)和检索链接列表，以馈送您的CURL数据库，我相信你可以自己编写一个爬虫(特别是如果你有几个网站)，使用一个简单的MySQL数据库(可能是像RabbitMQ这样的队列软件来安排爬行作业)。

另一方面，爬虫可能会更复杂，你可能想从HTML文档中移除头部，只保留页面的真正“内容”，等等……

此外，Nutch可以使用PageRank算法对页面进行排序，您可以使用Apache Spark来做同样的事情(效率更高，因为Spark可以在内存中缓存数据)。

票数 4

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/4269632

复制

相似问题

问Nutch的替代网络爬虫
EN

回答 5

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Nutch的替代网络爬虫EN

回答 5

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Nutch的替代网络爬虫
EN