我有一个关于从网页抓取数据的问题。有些网站对请求有限制,在这种情况下我该如何抓取?
发布于 2017-07-27 12:40:49
当抓取网站时,你可能会发现你的速度受到限制,因为你对一个网站做了太多的请求。例如,我的网站可能会阻止您一段时间,然后我才允许您发出另一个请求。这些限制可能会根据站点以及您发出请求的数量和频率而变化。
绕过这些限制的一种方法是使用您的语言休眠方法在请求之间稍作等待。在Python中,这是time.sleep(10)。
如果您仍然被阻止,您可以尝试使用增加重试时间来迎合禁止时间。例如,您在某个请求上被阻塞,因此等待5秒然后重试(并被阻塞),等待10秒然后重试(并被阻塞),等待20秒然后重试(并被阻塞),等待40秒等等,直到您达到想要放弃的限制或服务器允许您成功地发出请求。
https://stackoverflow.com/questions/45341499
复制相似问题