首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >网页爬行技术的信息

网页爬行技术的信息
EN

Stack Overflow用户
提问于 2009-05-18 15:29:23
回答 1查看 4.6K关注 0票数 2

我正在构建一个小型的网络爬虫,我想知道是否有人对实际的实现有一些有趣的信息(只是爬行,没有搜索,没有排名,没有分类,只是爬行,亲吻:)。

为了记录在案,我已经有了O‘’Reilly“蜘蛛黑客”和“无淀粉出版社”的“网络机器人、蜘蛛和屏幕刮刀”。这些书很好,但是它们倾向于保持简单,对于缩放、存储数据、并行的东西和其他更高级的主题不详细。当然,我可以检查现有的开源爬虫的代码,但是这会发生在另一个边缘(C++爬虫看起来很复杂.)。我正在寻找一些有趣的信息。

欢迎任何帮助,谢谢。

EN

回答 1

Stack Overflow用户

发布于 2009-06-03 11:54:56

如果您对web爬虫的实现细节感兴趣,您可以研究现有的开源实现。以下是Java中的开源爬行器的列表。这些项目大多是不活动的。但互联网档案馆的爬虫Heritix和Apache 纳奇都是成熟的主动项目,有很多值得学习的地方。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/878314

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档