我们需要每两周抓取大量(约15亿)的网页。速度,因此成本,对我们来说是一个巨大的因素,因为我们最初的尝试最终花费了我们超过20000美元。
是否存在crawler在分布式环境中执行得最好的数据?
发布于 2017-10-11 05:52:42
有关Nutch和StormCrawler之间的比较,请参阅my article on dzone。
Heritrix可以在分布式模式下使用,但文档中并不清楚如何做到这一点。前两个依赖于成熟的计算分发平台(分别是Apache Hadoop和Apache Storm ),但Heritrix并非如此。
Heritrix也主要由归档社区使用,而Nutch和StormCrawler用于更多的用例(例如,索引,抓取),并有更多的资源来提取数据。
我不熟悉你提到的2个托管服务,因为我只使用开源软件。
https://stackoverflow.com/questions/46673751
复制相似问题