我们正在使用一个网络刮板,并将其设置为具有随机功能的睡眠功能(这样每一次抓取之间的时间不同),但在20-30个请求之后,我们仍然被雅虎阻止。
有没有人知道是否有一个限制(即:每分钟20个请求,每小时200个请求),现在我们每个请求之间的平均间隔大约是3-6秒。谢谢你的帮助
发布于 2010-04-22 07:50:53
所以答案是5000个查询。摘自
http://forums.digitalpoint.com/showthread.php?t=736784
http:// developer。雅虎。com/search/rate.html
发布于 2010-04-21 14:10:02
每3-6秒一个请求是相当低的,所以也许你的爬虫有另一个问题。
以下是一些想法:
如果您当前的IP是blacklisted
,请将用户代理设置为与Referer标头相同的域,并尝试从不同的IP运行crawler
如果使用像Mechanize这样的更高级别的库,这一切都会变得更容易。
https://stackoverflow.com/questions/2679396
复制相似问题