首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >当连接数量有限时如何快速抓取网页

当连接数量有限时如何快速抓取网页
EN

Stack Overflow用户
提问于 2013-04-28 16:26:02
回答 3查看 205关注 0票数 1

我编写了一个web爬虫,通过使用www.amazon.com urllib2从抓取产品信息,但亚马逊似乎将每个IP的连接限制为1。

当我启动多个线程同时爬行时,它会引发HTTP Error 503: Service Temporarily Unavailable。我想要启动更多的线程来快速爬行,那么如何修复这个错误呢?

EN

回答 3

Stack Overflow用户

发布于 2013-04-28 16:28:46

简短的版本:你做不到,甚至尝试都不是个好主意。

票数 1
EN

Stack Overflow用户

发布于 2013-04-28 16:33:03

您可能应该切换到使用Amazon进行产品查询。

票数 0
EN

Stack Overflow用户

发布于 2013-04-28 17:20:00

使用python 请求模块通过代理IP进行连接。代码看起来就像

代码语言:javascript
运行
复制
import requests

proxies = {
  "http": "<an HTTP proxy IP>",
  "https": "<an HTTPS proxy IP>"
}
response = requests.get("http://your_url.com", proxies=proxies)

您应该能够从这里获得HTTP和HTTPS代理ips,有关更多帮助,请参见

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/16264992

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档