首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >PHP网络爬虫

PHP网络爬虫
EN

Stack Overflow用户
提问于 2011-04-12 16:54:11
回答 1查看 2.4K关注 0票数 0

我正在寻找一个PHP的网络爬虫收集一个大型网站的所有链接,并告诉我,如果链接被打破。

到目前为止,我已经尝试在这里修改了一个例子。My question about the code我也试过抓取phpDig,但是网站宕机了。任何关于我应该如何进行的建议都是很棒的。

编辑

问题不是抓取链接,而是规模问题我不确定我修改的脚本是否足以抓取可能有数千个URL,因为我尝试将搜索链接的深度设置为4,但爬虫在浏览器中超时。其他人提到了一些关于杀死进程的事情,以避免服务器过载,有人可以详细说明一下这个问题吗?

EN

回答 1

Stack Overflow用户

发布于 2011-04-12 16:57:56

这不是一个现成的解决方案,但简单的HTML Dom解析器是我最喜欢的dom解析器之一。它允许你使用CSS选择器来查找文档中的节点,这样你就可以很容易地找到<a href="">了,通过这些超级链接,你可以构建自己的爬虫,检查页面是否仍然可用。

You can find it here

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/5632668

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档