问大量的页面抓取麻烦
EN

Stack Overflow用户

提问于 2011-11-03 08:31:34

回答 1查看 230关注 0票数 0

我正在尝试从一个两级网站获取数据。第一级包含到第二级的几千个链接。我发现只有当我一次只能抓取一个顶级页面时，它才能起作用。当我试图一次抓取更多的时候，我在运行了大约40分钟后收到了一条错误消息。我尝试了file_get_contents ()和curl_exec ()函数，但是它们都不能处理这个任务。后一种方法曾经甚至无法完成一项任务。该脚本似乎正在导致内存溢出。有没有更好的方法来做这项工作？

php

curl

web-scraping

file-get-contents

回答 1

Stack Overflow用户

发布于 2011-11-09 07:52:56

500内部服务器错误意味着这是服务器问题，而不是客户端问题。它甚至可能是一种故意的反机器人服务器策略，以防止这种抓取，尽管它在40分钟内工作良好的事实使它看起来更有可能只是管理不善的服务器上的服务器容量问题。如果是这样的话，降低请求的速度将是解决方案。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/7988997

复制

相似问题

问大量的页面抓取麻烦
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问大量的页面抓取麻烦EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问大量的页面抓取麻烦
EN