首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >打造免费代理IP池

打造免费代理IP池

作者头像
用户3577892
发布2020-06-12 09:11:24
1.1K0
发布2020-06-12 09:11:24
举报
文章被收录于专栏:数据科学CLUB数据科学CLUB

爬虫的过程中,当对方服务器发现你屡次爬取它,可能会遇到被封IP的苦痛,这时IP就应该换啦,打造IP池的意义十分重要,提供免费IP网站有很多,本次用的是西刺代理IP

import urllib.request
import re
def get_proxy(n):
    url = 'http://www.xicidaili.com/nn/{}'.format(n)
    headers = ('User-Agent','Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36')
    opener = urllib.request.build_opener()
    opener.addheaders = [headers]
    urllib.request.install_opener(opener)
    html = opener.open(url).read().decode('utf8')
    ip_port_list = re.findall(r'<tr class(.*?)</tr>',html,re.S)
    proxy_list = []
    for i in ip_port_list:
        ip = re.findall(r'\d+\.\d+\.\d+\.\d+',i)[0]
        port = re.findall(r'<td>(\d+)</td>',i)[0]
        proxy = '{}:{}'.format(ip,port)
        proxy_list.append(proxy)
        print(proxy_list)

if __name__=='__main__':
    get_proxy(1)
这段代码是爬取第一页,仅仅做个示范,大家可以在下面写个for循环,多爬几页也是可以的,来看看输出结果
接下来来看看刚才做的IP池能不能用,或者说效率怎么样。测试网站http://httpbin.org/ip,话不多说上代码:
import urllib.request
import re
import time
import random
def get_proxy(n):
    url = 'http://www.xicidaili.com/nn/{}'.format(n)
    headers = ('User-Agent','Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36')
    opener = urllib.request.build_opener()
    opener.addheaders = [headers]
    urllib.request.install_opener(opener)
    html = opener.open(url).read().decode('utf8')
    ip_port_list = re.findall(r'<tr class(.*?)</tr>',html,re.S)
    proxy_list = []
    for i in ip_port_list:
        ip = re.findall(r'\d+\.\d+\.\d+\.\d+',i)[0]
        port = re.findall(r'<td>(\d+)</td>',i)[0]
        proxy = '{}:{}'.format(ip,port)
        proxy_list.append(proxy)
        return proxy_list


def proxy_read(proxy_list,i):
    proxy = proxy_list[i]
    print('当前IP为:{}'.format(proxy))
    sleep_time = random.randint(1,3)
    print('等待{}秒'.format(sleep_time))
    time.sleep(sleep_time)
    print('开始测试')

    proxy_jj = urllib.request.ProxyHandler({'http':proxy})
    opener = urllib.reequest.build_opener(proxy_jj,urllib.request.HTTPHandler)
    urllib.request.install_opener(opener)

    try:
        html = urllib.request.urlopen('http://httpbin.org/ip')
        rhtml = html.read()
        print(rhtml)

    except Exception as e:
        print(e)
        print('-------IP不能用------')



if __name__=='__main__':
    proxy_list = get_proxy(1)
    print('开始测试')

    for i in range(100):
        proxy_read(proxy_list,i)

结果如上图,总得来说,代码很简单,好啦,end啦。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-06-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据科学CLUB 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档