我想建立一个与scrapy亚马逊爬虫。
它起作用了,但在经过大约10个好的代理之后,每个下一个代理都会获得Proxy <IP:PORT> is DEAD
我不明白为什么..。
那是我的中间件
DOWNLOADER_MIDDLEWARES = {
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None,
'scrapy_user_agents.middlewares.RandomUserAgentMiddleware': 400,
'rotating_proxies.middlewares.RotatingProxyMiddleware': 610,
'rotating_proxies.middlewares.BanDetectionMiddleware': 620,
}
我有1000个代理,大多数都没有死,几乎都在另一个爬虫上工作,但几轮后就不在亚马逊上了……
有谁有主意吗?用户代理工作,代理也旋转,他在每个下一个“死”代理上显示不同的IP和一些东西
以下是一条日志
2019-11-06 21:52:40 [rotating_proxies.expire] DEBUG: Proxy <http://XXX:XXX@XXXX:8080> is DEAD
2019-11-06 21:52:40 [rotating_proxies.middlewares] DEBUG: Retrying <GET https://www.amazon.de/gp/offer-listing/B00VB2ISDM/ref=olp_f_used?f_primeEligible=true&f_usedAcceptable=true&f_usedGood=true&f_used=true&f_usedLikeNew=true&f_usedVeryGood=true> with another proxy (failed 9 times, max retries: 300)
2019-11-06 21:52:40 [scrapy_user_agents.middlewares] DEBUG: Proxy is detected http://xxxx:8080
正如我所说的,他们主要是为另一个网站工作,所以不会有那么多像亚马逊爬虫上显示的死代理
我还试着补充说
DOWNLOAD_DELAY = 5
AUTOTHROTTLE_ENABLED = True
AUTOTHROTTLE_START_DELAY = 20
AUTOTHROTTLE_MAX_DELAY = 60
无济于事
发布于 2019-11-07 19:59:36
亚马逊采用了先进的反机器人措施。
使用智能代理,如Crawlera或其他可提供良好IP轮换和其他web爬行功能的替代代理服务。
https://stackoverflow.com/questions/58738388
复制相似问题