文章/答案/技术大牛

发布

社区首页 >问答首页 >当连接数量有限时如何快速抓取网页

问当连接数量有限时如何快速抓取网页
EN

Stack Overflow用户

提问于 2013-04-28 16:26:02

回答 3查看 205关注 0票数 1

我编写了一个web爬虫，通过使用www.amazon.com urllib2从抓取产品信息，但亚马逊似乎将每个IP的连接限制为1。

当我启动多个线程同时爬行时，它会引发HTTP Error 503: Service Temporarily Unavailable。我想要启动更多的线程来快速爬行，那么如何修复这个错误呢？

python

http

network-programming

回答 3

Stack Overflow用户

发布于 2013-04-28 16:28:46

简短的版本:你做不到，甚至尝试都不是个好主意。

票数 1

Stack Overflow用户

发布于 2013-04-28 16:33:03

您可能应该切换到使用Amazon进行产品查询。

票数 0

Stack Overflow用户

发布于 2013-04-28 17:20:00

使用python 请求模块通过代理IP进行连接。代码看起来就像

import requests

proxies = {
  "http": "<an HTTP proxy IP>",
  "https": "<an HTTPS proxy IP>"
}
response = requests.get("http://your_url.com", proxies=proxies)

您应该能够从这里获得HTTP和HTTPS代理ips，有关更多帮助，请参见这

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/16264992

复制

相似问题

问当连接数量有限时如何快速抓取网页
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问当连接数量有限时如何快速抓取网页EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问当连接数量有限时如何快速抓取网页
EN