问网页爬行技术的信息
EN

Stack Overflow用户

提问于 2009-05-18 15:29:23

回答 1查看 4.6K关注 0票数 2

我正在构建一个小型的网络爬虫，我想知道是否有人对实际的实现有一些有趣的信息(只是爬行，没有搜索，没有排名，没有分类，只是爬行，亲吻:)。

为了记录在案，我已经有了O‘’Reilly“蜘蛛黑客”和“无淀粉出版社”的“网络机器人、蜘蛛和屏幕刮刀”。这些书很好，但是它们倾向于保持简单，对于缩放、存储数据、并行的东西和其他更高级的主题不详细。当然，我可以检查现有的开源爬虫的代码，但是这会发生在另一个边缘(C++爬虫看起来很复杂.)。我正在寻找一些有趣的信息。

欢迎任何帮助，谢谢。

web-applications

web-crawler

回答 1

Stack Overflow用户

发布于 2009-06-03 11:54:56

如果您对web爬虫的实现细节感兴趣，您可以研究现有的开源实现。以下是Java中的开源爬行器的列表。这些项目大多是不活动的。但互联网档案馆的爬虫Heritix和Apache 纳奇都是成熟的主动项目，有很多值得学习的地方。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/878314

复制

相似问题

问网页爬行技术的信息
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问网页爬行技术的信息EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问网页爬行技术的信息
EN