我正在尝试建立一个专门的搜索引擎网站,索引有限数量的网站。我想出的解决方案是:
问题是我发现Nutch相当复杂,而且它是一个需要定制的大软件,尽管有一个详细的文档(书籍,最近的教程..等)并不存在。
现在提出问题:
谢谢
发布于 2010-11-25 01:57:04
Scrapy是一个用于抓取网站的python库。它相当小(与Nutch相比),专为有限的站点爬行而设计。它有一种Django类型的MVC风格,我发现它很容易定制。
发布于 2011-02-27 22:35:27
发布于 2014-05-02 16:38:20
这取决于有多少网站和你认为爬行的URL。Apache Nutch在Apache (依赖于Apache Hadoop)上存储页面文档,它很可靠,但是很难设置和管理。
由于爬虫只是一个页面抓取(如CURL)和检索链接列表,以馈送您的CURL数据库,我相信你可以自己编写一个爬虫(特别是如果你有几个网站),使用一个简单的MySQL数据库(可能是像RabbitMQ这样的队列软件来安排爬行作业)。
另一方面,爬虫可能会更复杂,你可能想从HTML文档中移除头部,只保留页面的真正“内容”,等等……
此外,Nutch可以使用PageRank算法对页面进行排序,您可以使用Apache Spark来做同样的事情(效率更高,因为Spark可以在内存中缓存数据)。
https://stackoverflow.com/questions/4269632
复制相似问题