文章/答案/技术大牛

发布

社区首页 >问答首页 >Nutch vs Heritrix vs Stormcrawler vs MegaIndex vs Mixnode

问Nutch vs Heritrix vs Stormcrawler vs MegaIndex vs Mixnode
EN

Stack Overflow用户

提问于 2017-10-11 02:41:58

回答 1查看 3K关注 0票数 4

我们需要每两周抓取大量(约15亿)的网页。速度，因此成本，对我们来说是一个巨大的因素，因为我们最初的尝试最终花费了我们超过20000美元。

是否存在crawler在分布式环境中执行得最好的数据？

发布于 2017-10-11 05:52:42

有关Nutch和StormCrawler之间的比较，请参阅my article on dzone。

Heritrix可以在分布式模式下使用，但文档中并不清楚如何做到这一点。前两个依赖于成熟的计算分发平台(分别是Apache Hadoop和Apache Storm )，但Heritrix并非如此。

Heritrix也主要由归档社区使用，而Nutch和StormCrawler用于更多的用例(例如，索引，抓取)，并有更多的资源来提取数据。

我不熟悉你提到的2个托管服务，因为我只使用开源软件。

票数 4

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/46673751

复制

相似问题

问Nutch vs Heritrix vs Stormcrawler vs MegaIndex vs MixnodeEN