我正在寻找一个PHP的网络爬虫收集一个大型网站的所有链接,并告诉我,如果链接被打破。
到目前为止,我已经尝试在这里修改了一个例子。My question about the code我也试过抓取phpDig,但是网站宕机了。任何关于我应该如何进行的建议都是很棒的。
编辑
问题不是抓取链接,而是规模问题我不确定我修改的脚本是否足以抓取可能有数千个URL,因为我尝试将搜索链接的深度设置为4,但爬虫在浏览器中超时。其他人提到了一些关于杀死进程的事情,以避免服务器过载,有人可以详细说明一下这个问题吗?
发布于 2011-04-12 16:57:56
这不是一个现成的解决方案,但简单的HTML Dom解析器是我最喜欢的dom解析器之一。它允许你使用CSS选择器来查找文档中的节点,这样你就可以很容易地找到<a href="">
了,通过这些超级链接,你可以构建自己的爬虫,检查页面是否仍然可用。
You can find it here。
https://stackoverflow.com/questions/5632668
复制相似问题