我正在尝试从一个两级网站获取数据。第一级包含到第二级的几千个链接。我发现只有当我一次只能抓取一个顶级页面时,它才能起作用。当我试图一次抓取更多的时候,我在运行了大约40分钟后收到了一条错误消息。我尝试了file_get_contents ()
和curl_exec ()
函数,但是它们都不能处理这个任务。后一种方法曾经甚至无法完成一项任务。该脚本似乎正在导致内存溢出。有没有更好的方法来做这项工作?
发布于 2011-11-09 07:52:56
500内部服务器错误意味着这是服务器问题,而不是客户端问题。它甚至可能是一种故意的反机器人服务器策略,以防止这种抓取,尽管它在40分钟内工作良好的事实使它看起来更有可能只是管理不善的服务器上的服务器容量问题。如果是这样的话,降低请求的速度将是解决方案。
https://stackoverflow.com/questions/7988997
复制相似问题