我正在构建一个小型的网络爬虫,我想知道是否有人对实际的实现有一些有趣的信息(只是爬行,没有搜索,没有排名,没有分类,只是爬行,亲吻:)。
为了记录在案,我已经有了O‘’Reilly“蜘蛛黑客”和“无淀粉出版社”的“网络机器人、蜘蛛和屏幕刮刀”。这些书很好,但是它们倾向于保持简单,对于缩放、存储数据、并行的东西和其他更高级的主题不详细。当然,我可以检查现有的开源爬虫的代码,但是这会发生在另一个边缘(C++爬虫看起来很复杂.)。我正在寻找一些有趣的信息。
欢迎任何帮助,谢谢。
发布于 2009-06-03 11:54:56
如果您对web爬虫的实现细节感兴趣,您可以研究现有的开源实现。以下是Java中的开源爬行器的列表。这些项目大多是不活动的。但互联网档案馆的爬虫Heritix和Apache 纳奇都是成熟的主动项目,有很多值得学习的地方。
https://stackoverflow.com/questions/878314
复制相似问题