首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >最适合用于图像爬行的开源、可扩展爬虫

最适合用于图像爬行的开源、可扩展爬虫
EN

Stack Overflow用户
提问于 2009-07-28 00:59:49
回答 2查看 2.5K关注 0票数 3

我们正处于一个项目的开始阶段,我们目前想知道哪个爬虫是我们最好的选择。

我们的项目:

基本上,我们要建立Hadoop和抓取网络上的图像。然后,我们将根据Hadoop中的Map/Reduce工具,在HDFS中存储的图像上运行我们自己的索引软件。除了我们自己的索引之外,我们不会使用其他索引。

一些特殊问题:

  • 哪种爬虫最适合抓取图像?
  • 哪种爬虫最适合分布式爬行系统,在这种系统中我们使用多台服务器一起进行爬行?

现在这些看起来是最好的三种选择-

  • Nutch:众所周知的规模。看起来并不是最好的选择,因为它似乎与他们的文本搜索紧密联系在一起,software.
  • Heritrix:也可以伸缩。目前看来,最好的option.
  • Scrapy:还没有大规模使用(但不确定)。我不知道它是否有基本的东西,如URL规范化。我想使用它,因为它是一个python框架(我更喜欢python而不是java),但是我不知道它们是否实现了web爬虫的高级特性。

摘要:

我们需要从网络上获取尽可能多的图片。现有的爬行框架是可伸缩和高效的,但哪个框架将是最容易修改而只获取图像的?

谢谢!

EN

回答 2

Stack Overflow用户

发布于 2009-07-28 01:09:13

http://lucene.apache.org/nutch/

我认为最广泛的使用和支持(社区支持)的东西是更好的方法。

票数 2
EN

Stack Overflow用户

发布于 2009-08-08 19:44:47

Nutch可能是一个很好的选择,因为您希望在HDFS上结束。研究目前正在开发中的HBase集成(NUTCH-650)可能是有用的。

您可以通过跳过末尾的索引步骤来获得所需的数据,而可以查看段本身。

然而,对于灵活性,另一种选择可能是Droid:http://incubator.apache.org/droids/。它仍处于apache的孵化器阶段,但值得一看。

通过查看org.apache.droids.examples中的org.apache.droids.examples示例,您可能会得到一些想法。也许可以将Sysout处理程序替换为将映像存储到HDFS上的处理程序,这可能会为您提供您想要的。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/1191420

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档