文章/答案/技术大牛

发布

社区首页 >问答首页 >Python Scrapy代理在几轮之后就死了？

问Python Scrapy代理在几轮之后就死了？
EN

Stack Overflow用户

提问于 2019-11-07 04:59:06

回答 1查看 501关注 0票数 1

我想建立一个与scrapy亚马逊爬虫。

它起作用了，但在经过大约10个好的代理之后，每个下一个代理都会获得Proxy <IP:PORT> is DEAD

我不明白为什么..。

那是我的中间件

DOWNLOADER_MIDDLEWARES = {
    'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None,
    'scrapy_user_agents.middlewares.RandomUserAgentMiddleware': 400,

    'rotating_proxies.middlewares.RotatingProxyMiddleware': 610,
    'rotating_proxies.middlewares.BanDetectionMiddleware': 620,
}

我有1000个代理，大多数都没有死，几乎都在另一个爬虫上工作，但几轮后就不在亚马逊上了……

有谁有主意吗？用户代理工作，代理也旋转，他在每个下一个“死”代理上显示不同的IP和一些东西

以下是一条日志

2019-11-06 21:52:40 [rotating_proxies.expire] DEBUG: Proxy <http://XXX:XXX@XXXX:8080> is DEAD
2019-11-06 21:52:40 [rotating_proxies.middlewares] DEBUG: Retrying <GET https://www.amazon.de/gp/offer-listing/B00VB2ISDM/ref=olp_f_used?f_primeEligible=true&f_usedAcceptable=true&f_usedGood=true&f_used=true&f_usedLikeNew=true&f_usedVeryGood=true> with another proxy (failed 9 times, max retries: 300)
2019-11-06 21:52:40 [scrapy_user_agents.middlewares] DEBUG: Proxy is detected http://xxxx:8080

正如我所说的，他们主要是为另一个网站工作，所以不会有那么多像亚马逊爬虫上显示的死代理

我还试着补充说

DOWNLOAD_DELAY = 5
AUTOTHROTTLE_ENABLED = True
AUTOTHROTTLE_START_DELAY = 20
AUTOTHROTTLE_MAX_DELAY = 60

无济于事

python

scrapy

回答 1

Stack Overflow用户

发布于 2019-11-07 19:59:36

亚马逊采用了先进的反机器人措施。

使用智能代理，如Crawlera或其他可提供良好IP轮换和其他web爬行功能的替代代理服务。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/58738388

复制

相似问题

问Python Scrapy代理在几轮之后就死了？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Python Scrapy代理在几轮之后就死了？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Python Scrapy代理在几轮之后就死了？
EN