我们正处于一个项目的开始阶段,我们目前想知道哪个爬虫是我们最好的选择。
我们的项目:
基本上,我们要建立Hadoop和抓取网络上的图像。然后,我们将根据Hadoop中的Map/Reduce工具,在HDFS中存储的图像上运行我们自己的索引软件。除了我们自己的索引之外,我们不会使用其他索引。
一些特殊问题:
现在这些看起来是最好的三种选择-
。
摘要:
我们需要从网络上获取尽可能多的图片。现有的爬行框架是可伸缩和高效的,但哪个框架将是最容易修改而只获取图像的?
谢谢!
发布于 2009-07-28 01:09:13
http://lucene.apache.org/nutch/
我认为最广泛的使用和支持(社区支持)的东西是更好的方法。
发布于 2009-08-08 19:44:47
Nutch可能是一个很好的选择,因为您希望在HDFS上结束。研究目前正在开发中的HBase集成(NUTCH-650)可能是有用的。
您可以通过跳过末尾的索引步骤来获得所需的数据,而可以查看段本身。
然而,对于灵活性,另一种选择可能是Droid:http://incubator.apache.org/droids/。它仍处于apache的孵化器阶段,但值得一看。
通过查看org.apache.droids.examples中的org.apache.droids.examples示例,您可能会得到一些想法。也许可以将Sysout处理程序替换为将映像存储到HDFS上的处理程序,这可能会为您提供您想要的。
https://stackoverflow.com/questions/1191420
复制相似问题