首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >Python Scrapy代理在几轮之后就死了?

Python Scrapy代理在几轮之后就死了?
EN

Stack Overflow用户
提问于 2019-11-07 04:59:06
回答 1查看 501关注 0票数 1

我想建立一个与scrapy亚马逊爬虫。

它起作用了,但在经过大约10个好的代理之后,每个下一个代理都会获得Proxy <IP:PORT> is DEAD

我不明白为什么..。

那是我的中间件

代码语言:javascript
运行
复制
DOWNLOADER_MIDDLEWARES = {
    'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None,
    'scrapy_user_agents.middlewares.RandomUserAgentMiddleware': 400,

    'rotating_proxies.middlewares.RotatingProxyMiddleware': 610,
    'rotating_proxies.middlewares.BanDetectionMiddleware': 620,
}

我有1000个代理,大多数都没有死,几乎都在另一个爬虫上工作,但几轮后就不在亚马逊上了……

有谁有主意吗?用户代理工作,代理也旋转,他在每个下一个“死”代理上显示不同的IP和一些东西

以下是一条日志

代码语言:javascript
运行
复制
2019-11-06 21:52:40 [rotating_proxies.expire] DEBUG: Proxy <http://XXX:XXX@XXXX:8080> is DEAD
2019-11-06 21:52:40 [rotating_proxies.middlewares] DEBUG: Retrying <GET https://www.amazon.de/gp/offer-listing/B00VB2ISDM/ref=olp_f_used?f_primeEligible=true&f_usedAcceptable=true&f_usedGood=true&f_used=true&f_usedLikeNew=true&f_usedVeryGood=true> with another proxy (failed 9 times, max retries: 300)
2019-11-06 21:52:40 [scrapy_user_agents.middlewares] DEBUG: Proxy is detected http://xxxx:8080

正如我所说的,他们主要是为另一个网站工作,所以不会有那么多像亚马逊爬虫上显示的死代理

我还试着补充说

代码语言:javascript
运行
复制
DOWNLOAD_DELAY = 5
AUTOTHROTTLE_ENABLED = True
AUTOTHROTTLE_START_DELAY = 20
AUTOTHROTTLE_MAX_DELAY = 60

无济于事

EN

回答 1

Stack Overflow用户

发布于 2019-11-07 19:59:36

亚马逊采用了先进的反机器人措施。

使用智能代理,如Crawlera或其他可提供良好IP轮换和其他web爬行功能的替代代理服务。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/58738388

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档