我编写了一个web爬虫,通过使用www.amazon.com urllib2从抓取产品信息,但亚马逊似乎将每个IP的连接限制为1。
当我启动多个线程同时爬行时,它会引发HTTP Error 503: Service Temporarily Unavailable
。我想要启动更多的线程来快速爬行,那么如何修复这个错误呢?
发布于 2013-04-28 16:28:46
简短的版本:你做不到,甚至尝试都不是个好主意。
发布于 2013-04-28 16:33:03
您可能应该切换到使用Amazon进行产品查询。
发布于 2013-04-28 17:20:00
使用python 请求模块通过代理IP进行连接。代码看起来就像
import requests
proxies = {
"http": "<an HTTP proxy IP>",
"https": "<an HTTPS proxy IP>"
}
response = requests.get("http://your_url.com", proxies=proxies)
您应该能够从这里获得HTTP和HTTPS代理ips,有关更多帮助,请参见这
https://stackoverflow.com/questions/16264992
复制相似问题