首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >大量的页面抓取麻烦

大量的页面抓取麻烦
EN

Stack Overflow用户
提问于 2011-11-03 08:31:34
回答 1查看 230关注 0票数 0

我正在尝试从一个两级网站获取数据。第一级包含到第二级的几千个链接。我发现只有当我一次只能抓取一个顶级页面时,它才能起作用。当我试图一次抓取更多的时候,我在运行了大约40分钟后收到了一条错误消息。我尝试了file_get_contents ()curl_exec ()函数,但是它们都不能处理这个任务。后一种方法曾经甚至无法完成一项任务。该脚本似乎正在导致内存溢出。有没有更好的方法来做这项工作?

EN

回答 1

Stack Overflow用户

发布于 2011-11-09 07:52:56

500内部服务器错误意味着这是服务器问题,而不是客户端问题。它甚至可能是一种故意的反机器人服务器策略,以防止这种抓取,尽管它在40分钟内工作良好的事实使它看起来更有可能只是管理不善的服务器上的服务器容量问题。如果是这样的话,降低请求的速度将是解决方案。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/7988997

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档