专栏首页python3Python 爬虫IP代理池的实现

Python 爬虫IP代理池的实现

很多时候,如果要多线程的爬取网页,或者是单纯的反爬,我们需要通过代理IP来进行访问。下面看看一个基本的实现方法。

代理IP的提取,网上有很多网站都提供这个服务。基本上可靠性和银子是成正比的。国内提供的免费IP基本上都是没法用的,如果要可靠的代理只能付费;国外稍微好些,有些免费IP还是比较靠谱的。

网上随便搜索了一下,找了个网页,本来还想手动爬一些对应的IP,结果发现可以直接下载现成的txt文件 http://www.thebigproxylist.com/

下载之后,试试看用不同的代理去爬百度首页

#!/usr/bin/env python
#! -*- coding:utf-8 -*-
# Author: Yuan Li

import re,urllib.request

fp=open("c:\\temp\\thebigproxylist-17-12-20.txt",'r')
lines=fp.readlines()

for ip in lines:
    try:
            print("当前代理IP "+ip)
            proxy=urllib.request.ProxyHandler({"http":ip})
            opener=urllib.request.build_opener(proxy,urllib.request.HTTPHandler)
            urllib.request.install_opener(opener)
            url="http://www.baidu.com"
            data=urllib.request.urlopen(url).read().decode('utf-8','ignore')
            print("通过")

            print("-----------------------------")
    except Exception as err:
        print(err)
        print("-----------------------------")

fp.close()

结果如下:

C:\Python36\python.exe C:/Users/yuan.li/Documents/GitHub/Python/Misc/爬虫/proxy.py
当前代理IP 137.74.168.174:80

通过
-----------------------------
当前代理IP 103.28.161.68:8080

通过
-----------------------------
当前代理IP 91.151.106.127:53281

HTTP Error 503: Service Unavailable
-----------------------------
当前代理IP 177.136.252.7:3128

<urlopen error [WinError 10060] A connection attempt failed because the connected party did not properly respond after a period of time, or established connection failed because connected host has failed to respond>
-----------------------------
当前代理IP 47.89.22.200:80

通过
-----------------------------
当前代理IP 118.69.61.57:8888

HTTP Error 503: Service Unavailable
-----------------------------
当前代理IP 192.241.190.167:8080

通过
-----------------------------
当前代理IP 185.124.112.130:80

通过
-----------------------------
当前代理IP 83.65.246.181:3128

通过
-----------------------------
当前代理IP 79.137.42.124:3128

通过
-----------------------------
当前代理IP 95.0.217.32:8080

<urlopen error [WinError 10060] A connection attempt failed because the connected party did not properly respond after a period of time, or established connection failed because connected host has failed to respond>
-----------------------------
当前代理IP 104.131.94.221:8080

通过

不过上面这种方式只适合比较稳定的IP源,如果IP不稳定的话,可能很快对应的文本就失效了,最好可以动态地去获取最新的IP地址。很多网站都提供API可以实时地去查询 还是用刚才的网站,这次我们用API去调用,这里需要浏览器伪装一下才能爬取

#!/usr/bin/env python
#! -*- coding:utf-8 -*-
# Author: Yuan Li

import re,urllib.request

headers=("User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.22 Safari/537.36 SE 2.X MetaSr 1.0")
opener=urllib.request.build_opener()
opener.addheaders=[headers]
#安装为全局
urllib.request.install_opener(opener)
data=urllib.request.urlopen("http://www.thebigproxylist.com/members/proxy-api.php?output=all&user=list&pass=8a544b2637e7a45d1536e34680e11adf").read().decode('utf8')
ippool=data.split('\n')

for ip in ippool:
    ip=ip.split(',')[0]
    try:
            print("当前代理IP "+ip)
            proxy=urllib.request.ProxyHandler({"http":ip})
            opener=urllib.request.build_opener(proxy,urllib.request.HTTPHandler)
            urllib.request.install_opener(opener)
            url="http://www.baidu.com"
            data=urllib.request.urlopen(url).read().decode('utf-8','ignore')
            print("通过")

            print("-----------------------------")
    except Exception as err:
        print(err)
        print("-----------------------------")

fp.close()

结果如下:

C:\Python36\python.exe C:/Users/yuan.li/Documents/GitHub/Python/Misc/爬虫/proxy.py
当前代理IP 213.233.57.134:80
HTTP Error 403: Forbidden
-----------------------------
当前代理IP 144.76.81.79:3128
通过
-----------------------------
当前代理IP 45.55.132.29:53281
HTTP Error 503: Service Unavailable
-----------------------------
当前代理IP 180.254.133.124:8080
通过
-----------------------------
当前代理IP 5.196.215.231:3128
HTTP Error 503: Service Unavailable
-----------------------------
当前代理IP 177.99.175.195:53281
HTTP Error 503: Service Unavailable

因为直接for循环来按顺序读取文本实在是太慢了,我试着改成多线程来读取,这样速度就快多了

#!/usr/bin/env python
#! -*- coding:utf-8 -*-
# Author: Yuan Li

import threading
import queue
import re,urllib.request

#Number of threads
n_thread = 10
#Create queue
queue = queue.Queue()

class ThreadClass(threading.Thread):
    def __init__(self, queue):
        threading.Thread.__init__(self)
                super(ThreadClass, self).__init__()
    #Assign thread working with queue
        self.queue = queue

    def run(self):
        while True:
        #Get from queue job
            host = self.queue.get()
            print (self.getName() + ":" + host)
            try:
                # print("当前代理IP " + host)
                proxy = urllib.request.ProxyHandler({"http": host})
                opener = urllib.request.build_opener(proxy, urllib.request.HTTPHandler)
                urllib.request.install_opener(opener)
                url = "http://www.baidu.com"
                data = urllib.request.urlopen(url).read().decode('utf-8', 'ignore')
                print("通过")

                print("-----------------------------")
            except Exception as err:
                print(err)
                print("-----------------------------")

            #signals to queue job is done
            self.queue.task_done()

#Create number process
for i in range(n_thread):
    t = ThreadClass(queue)
    t.setDaemon(True)
    #Start thread
    t.start()

#Read file line by line
hostfile = open("c:\\temp\\thebigproxylist-17-12-20.txt","r")
for line in hostfile:
    #Put line to queue
    queue.put(line)
#wait on the queue until everything has been processed
queue.join()

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • TensorFlow 2.0 识别MNIST手写数字

    用户6021899
  • 从RDR2游戏看DX12和RTX光线追踪的尴尬

    游戏《荒野大镖客2》(Red Dead Redemption 2)上市以来好评如潮,不仅在画面细节上达到了目前3D游戏的顶峰,而且在世界观,剧情方面,秉承了R星...

    冬瓜哥
  • OpenGL 可编程管线编程概述

    一直想学OpenGL,最近看了一点儿,昨天用Qt5.12重新实现了NeHe的OpenGl教程的第一篇。之后后台有小伙伴留言,建议我用OpenGL的现代化编程版本...

    用户5908113
  • 生产环境下的 Node.js 日志记录方案[每日前端夜话0xFD]

    设置正确的日志记录基础结构可帮助我们查找发生的问题、调试和监视应用程序。从最基本的角度来看,我们应该从基础架构中得到以下内容:

    疯狂的技术宅
  • ZooKeeper 入门看这篇就够了

    ZooKeeper 是一个分布式的,开放源码的分布式应用程序协同服务。ZooKeeper 的设计目标是将那些复杂且容易出错的分布式一致性服务封装起来,构成一个高...

    武培轩
  • 使用Hybris Commerce API返回当前客户持有的所有优惠券

    在Hybris commerce API的swagger说明网站上找到了这个Coupon读取API的技术说明:

    Jerry Wang
  • Flink SQL项目实录

    为Flink最高层的API,易于使用,所以应用更加广泛,eg. ETL、统计分析、实时报表、实时风控等。

    小勇DW3
  • Android 贝塞尔曲线实战之网易云音乐鲸云特效

    APP开发市场已经告别“野蛮生长”时代,人们不再满足于APP外形创新,而将目光转向全方面的用户体验上。在这过程中,动效化作为移动互联网产品的新趋势,如何实现酷炫...

    个推君
  • Spark2.x新特性的介绍

    dataframe与dataset统一,dataframe只是dataset[Row]的类型别名

    我脱下短袖
  • 腾讯(url.cn)短网址链接生成api接口

    腾讯url短网址api接口是腾讯官方对外公开的长网址转为短网址的API,可以将冗长的链接地址缩短生成 url.cn/xxx 格式的短网址。

    uglyboy

扫码关注云+社区

领取腾讯云代金券