问PHP网络爬虫
EN

Stack Overflow用户

提问于 2011-04-12 16:54:11

回答 1查看 2.4K关注 0票数 0

我正在寻找一个PHP的网络爬虫收集一个大型网站的所有链接，并告诉我，如果链接被打破。

到目前为止，我已经尝试在这里修改了一个例子。My question about the code我也试过抓取phpDig，但是网站宕机了。任何关于我应该如何进行的建议都是很棒的。

编辑

问题不是抓取链接，而是规模问题我不确定我修改的脚本是否足以抓取可能有数千个URL，因为我尝试将搜索链接的深度设置为4，但爬虫在浏览器中超时。其他人提到了一些关于杀死进程的事情，以避免服务器过载，有人可以详细说明一下这个问题吗？

发布于 2011-04-12 16:57:56

这不是一个现成的解决方案，但简单的HTML Dom解析器是我最喜欢的dom解析器之一。它允许你使用CSS选择器来查找文档中的节点，这样你就可以很容易地找到<a href="">了，通过这些超级链接，你可以构建自己的爬虫，检查页面是否仍然可用。

You can find it here。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/5632668

复制

相似问题

问PHP网络爬虫EN