专栏首页SeanCheney的专栏Scrapy使用随机IP代理插件Scrapy-Proxies

Scrapy使用随机IP代理插件Scrapy-Proxies

使用Scrapy_Proxies随机IP代理插件 https://github.com/aivarsk/scrapy-proxies


安装:

pip install scrapy_proxies

设置settings.py

# Retry many times since proxies often fail
RETRY_TIMES = 10
# Retry on most error codes since proxies fail for different reasons
RETRY_HTTP_CODES = [500, 503, 504, 400, 403, 404, 408]

DOWNLOADER_MIDDLEWARES = {
    'scrapy.downloadermiddlewares.retry.RetryMiddleware': 90,
    'scrapy_proxies.RandomProxy': 100,
    'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 110,
}

# Proxy list containing entries like
# http://host1:port
# http://username:password@host2:port
# http://host3:port
# 这是存放代理IP列表的位置
PROXY_LIST = '/path/to/proxy/list.txt'

#代理模式
# 0 = Every requests have different proxy
# 1 = Take only one proxy from the list and assign it to every requests
# 2 = Put a custom proxy to use in the settings
PROXY_MODE = 0

#如果使用模式2,将下面解除注释:
#CUSTOM_PROXY = "http://host1:port"

使用方法:

  1. 将之前用Python爬到的代理IP列表存储到PROXY_LIST可以找到的位置;
  2. 几种PROXY_MODE里,可能0是最常用的;如果有哪个IP是特别稳定的话,应该使用2

最关键的还是维护一个高可用的IP代理池。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 《Learning Scrapy》(中文版)第7章 配置和管理

    我们已经学过了用Scrapy写一个抓取网络信息的简单爬虫是多么容易。通过进行设置,Scrapy还有许多用途和功能。对于许多软件框架,用设置调节系统的运行,很让人...

    SeanCheney
  • 《Learning Scrapy》(中文版)第1章 Scrapy介绍HelloScrapy喜爱Scrapy的其它理由关于此书:目标和用法掌握自动抓取数据的重要性开发高可靠高质量的应用 提供真实的开发进

    本书作者使用的Scrapy版本是1.0.3。感兴趣的话,还可以看看Scrapy1.4最新官方文档总结。 ---- ? 下载本书代码:https://git...

    SeanCheney
  • Scrapy1.4最新官方文档总结 1 介绍·安装安装

    《Learning Scrapy》这本书是2016年1月出版的,作者使用的版本是Scrapy 1.0.3。 现在,Scrapy的最新版本是1.4。 ? Scra...

    SeanCheney
  • 计算机网络简介

    网路定义 :以实现资源共享为目的,一些互相连接的、独立的自治系统(能够独立运行并提供服务的系统)的集合。

    大眼瞪小眼
  • java 网络通信协议 (三次握手+协议的概述+TCP+UDP+IP)

    首先我们先来了解两种软件协议: 1 c/s结构:全称Client/Server结构,是指客户端与服务器的结构,就像qq,微信等软件,通过客户端与服务器交互

    一只胡说八道的猴子
  • 加深理解HTTP请求---网络基础TCP/IP

    为了了解HTTP,必须的了解TCP/IP协议族。 通常使用的网络实在TCP/IP协议族的基础上运作的。而HTTP就属于他的一个子集。 1、TCP/IP 协议族 ...

    柴小智
  • 再论 ASP.NET 中获取客户端IP地址

    说到IP获取无非是我们常见的以下几种方式,但是具体获取的值具体区别在哪?网上不乏相关文章,说的也是很详细,但是真正使用起来,还有很多不太对的地方。IP在不同系统...

    逸鹏
  • 最新漏洞利用包可租用每天需80美元

    ? 近日,以色列网络安全公司IntSights Cyber Intelligence透露,一种新型的漏洞利用套件正在俄罗斯某地下黑客论坛被进行出售。据论坛信息...

    FB客服
  • 【RL-TCPnet网络教程】第27章 DNS域名系统基础知识

    本章节为大家讲解DNS(Domain Name System,域名系统),通过前面章节对TCP和UDP的学习,需要大家对DNS也有个基础的认识。

    armfly
  • TCP/IP分层管理

    测试小兵

扫码关注云+社区

领取腾讯云代金券