首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >Nutch vs Heritrix vs Stormcrawler vs MegaIndex vs Mixnode

Nutch vs Heritrix vs Stormcrawler vs MegaIndex vs Mixnode
EN

Stack Overflow用户
提问于 2017-10-11 02:41:58
回答 1查看 3K关注 0票数 4

我们需要每两周抓取大量(约15亿)的网页。速度,因此成本,对我们来说是一个巨大的因素,因为我们最初的尝试最终花费了我们超过20000美元。

是否存在crawler在分布式环境中执行得最好的数据?

EN

回答 1

Stack Overflow用户

发布于 2017-10-11 05:52:42

有关Nutch和StormCrawler之间的比较,请参阅my article on dzone

Heritrix可以在分布式模式下使用,但文档中并不清楚如何做到这一点。前两个依赖于成熟的计算分发平台(分别是Apache Hadoop和Apache Storm ),但Heritrix并非如此。

Heritrix也主要由归档社区使用,而Nutch和StormCrawler用于更多的用例(例如,索引,抓取),并有更多的资源来提取数据。

我不熟悉你提到的2个托管服务,因为我只使用开源软件。

票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/46673751

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档