文章/答案/技术大牛

发布

社区首页 >问答首页 >最适合用于图像爬行的开源、可扩展爬虫

问最适合用于图像爬行的开源、可扩展爬虫
EN

Stack Overflow用户

提问于 2009-07-28 00:59:49

回答 2查看 2.5K关注 0票数 3

我们正处于一个项目的开始阶段，我们目前想知道哪个爬虫是我们最好的选择。

我们的项目：

基本上，我们要建立Hadoop和抓取网络上的图像。然后，我们将根据Hadoop中的Map/Reduce工具，在HDFS中存储的图像上运行我们自己的索引软件。除了我们自己的索引之外，我们不会使用其他索引。

一些特殊问题：

哪种爬虫最适合抓取图像？
哪种爬虫最适合分布式爬行系统，在这种系统中我们使用多台服务器一起进行爬行？

现在这些看起来是最好的三种选择-

Nutch:众所周知的规模。看起来并不是最好的选择，因为它似乎与他们的文本搜索紧密联系在一起，software.
Heritrix:也可以伸缩。目前看来，最好的option.
Scrapy:还没有大规模使用(但不确定)。我不知道它是否有基本的东西，如URL规范化。我想使用它，因为它是一个python框架(我更喜欢python而不是java)，但是我不知道它们是否实现了web爬虫的高级特性。

。

摘要：

我们需要从网络上获取尽可能多的图片。现有的爬行框架是可伸缩和高效的，但哪个框架将是最容易修改而只获取图像的？

谢谢!

language-agnostic

web-crawler

回答 2

Stack Overflow用户

发布于 2009-07-28 01:09:13

http://lucene.apache.org/nutch/

我认为最广泛的使用和支持(社区支持)的东西是更好的方法。

票数 2

Stack Overflow用户

发布于 2009-08-08 19:44:47

Nutch可能是一个很好的选择，因为您希望在HDFS上结束。研究目前正在开发中的HBase集成(NUTCH-650)可能是有用的。

您可以通过跳过末尾的索引步骤来获得所需的数据，而可以查看段本身。

然而，对于灵活性，另一种选择可能是Droid：http://incubator.apache.org/droids/。它仍处于apache的孵化器阶段，但值得一看。

通过查看org.apache.droids.examples中的org.apache.droids.examples示例，您可能会得到一些想法。也许可以将Sysout处理程序替换为将映像存储到HDFS上的处理程序，这可能会为您提供您想要的。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/1191420

复制

相似问题

问最适合用于图像爬行的开源、可扩展爬虫
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问最适合用于图像爬行的开源、可扩展爬虫EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问最适合用于图像爬行的开源、可扩展爬虫
EN