我以前偶尔会刮电子商务网页来获取产品价格信息。我已经有一段时间没有使用用Scrapy建造的铲运机了,昨天我试着使用它--我遇到了机器人保护方面的问题。
它使用CloudFlare的DDOS保护,这基本上是使用JavaScript评估过滤掉禁用JS的浏览器(因此也是刮板)。一旦对函数进行了计算,就会生成具有计算数量的响应。作为回报,服务返回两个附加于每个请求的身份验证cookie,允许正常地爬行站点。这里是对其工作方式的描述。
我还找到了一个云焰-擦伤 Python模块,它使用外部JS评估引擎来计算数量并将请求发送回服务器。不过,我不知道如何将它集成到刮痕中。或者也许有一种更聪明的方法不需要使用JS执行?最后,这是一种形式..。
我会寻求任何帮助。
发布于 2015-10-21 06:43:17
https://stackoverflow.com/questions/33247662
复制相似问题