前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >你的爬虫ip又被封了?教你一招

你的爬虫ip又被封了?教你一招

作者头像
Python研究者
发布2020-10-29 16:53:37
1K0
发布2020-10-29 16:53:37
举报
文章被收录于专栏:Python研究者Python研究者

python爬取代理IP及测试是否可用

很多人在爬虫时为了防止被封IP,所以就会去各大网站上查找免费的代理IP,由于不是每个IP地址都是有效的,如果要进去一个一个比对的话效率太低了,我也遇到了这种情况,所以就直接尝试了一下去网站爬取免费的代理IP,并且逐一的测试,最后将有效的IP进行返回。

在这里我选择的是89免费代理IP网站进行爬取,并且每一个IP都进行比对测试,最后会将可用的IP进行另存放为一个列表

https://www.89ip.cn/

一、准备工作

导入包并且设置头标签

代码语言:javascript
复制
import requests
from bs4 import BeautifulSoup

header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36'
}

二、提取网页源码

提取网页源码返回的是整个网站的HTML

代码语言:javascript
复制
def getHtml(url):
    try:
        reponse = requests.get(url, headers=header)
        reponse.raise_for_status()
        reponse.encoding = reponse.apparent_encoding
        return reponse.text
    except:
        return "网页源码提取错误"

三、解析HTML并提取IP

函数传入的参数是HTML和存放IP地址的列表

代码语言:javascript
复制
# 解析网页,提取IP
def getIp(html, list):
    try:
        soup = BeautifulSoup(html, "html.parser")
        tr = soup.find("tbody").find_all_next("tr")
        for ip in tr:
            # 提取IP
            td = ip.find_next("td").string
            td = str(td).replace(" ", "").replace("\n", "").replace("\t", "")
            # 提取端口号
            dk = ip.find_all_next("td")[1].string
            dk = str(dk).replace(" ", "").replace("\n", "").replace("\t", "")
            # 将IP和端口号进行连接
            ip = td + ":" + dk
            list.append(ip)  # 再进IP地址存放至指定列表中去
    except:
        print("获取IP失败")

四、测试IP是否可用

在这里测试IP的原理是用requests请求百度网站,并且传入代理IP,如果网站返回状态码为200那么说明此IP有效,如果出现其他情况则判断IP地址无效

代码语言:javascript
复制
# 测试出可用IP
def ip_text(list, valid_IP):
    try:
        url = "https://www.baidu.com//"
        for ip in list:
            try:
                rep = requests.get(url, proxies={'https': ip}, headers=header, timeout=0.5)
                if rep.status_code == 200:  # 如果放回的状态码是200,那么说明该IP地址可用
                    valid_IP.append(ip)
                    print("该代理IP有效:" + ip)
                else:
                    print("该代理IP无效:" + ip)
            except:
                print("该代理IP无效:" + ip)
    except:
        print("IP测试失败")

五、主函数main

主函数中主要负责调用函数和自定义页数指定生成URL,并且在程序结束前会输出有效IP地址

代码语言:javascript
复制
if __name__ == '__main__':

    valid_IP = []  # 有效IP地址
    for i in range(1, 90):  # 可自定义页数
        ip_list = []  # 存放所有爬取到的ip
        url = "https://www.89ip.cn/index_" + str(i) + ".html"
        print(url)
        html = getHtml(url)
        getIp(html, ip_list)
        ip_text(ip_list, valid_IP)

    print("=" * 30)
    print("测试完成,有效IP如下:")
    print("-" * 30)
    for a in valid_IP:
        print(a)
    print("=" * 30)

代码整体框架已经结束完毕了,最后把所有代码呈现出了

完整代码

代码语言:javascript
复制
# -*- coding: utf-8 -*-


import requests
from bs4 import BeautifulSoup

header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36'
}


# 提取网页源码
def getHtml(url):
    try:
        reponse = requests.get(url, headers=header)
        reponse.raise_for_status()
        reponse.encoding = reponse.apparent_encoding
        return reponse.text
    except:
        return "网页源码提取错误"


# 解析网页,提取IP
def getIp(html, list):
    try:
        soup = BeautifulSoup(html, "html.parser")
        tr = soup.find("tbody").find_all_next("tr")
        for ip in tr:
            # 提取IP
            td = ip.find_next("td").string
            td = str(td).replace(" ", "").replace("\n", "").replace("\t", "")
            # 提取端口号
            dk = ip.find_all_next("td")[1].string
            dk = str(dk).replace(" ", "").replace("\n", "").replace("\t", "")
            # 将IP和端口号进行连接
            ip = td + ":" + dk
            list.append(ip)  # 再进IP地址存放至指定列表中去
    except:
        print("获取IP失败")


# 测试出可用IP
def ip_text(list, valid_IP):
    try:
        url = "https://www.baidu.com//"
        for ip in list:
            try:
                rep = requests.get(url, proxies={'https': ip}, headers=header, timeout=0.5)
                if rep.status_code == 200:  # 如果放回的状态码是200,那么说明该IP地址可用
                    valid_IP.append(ip)
                    print("该代理IP有效:" + ip)
                else:
                    print("该代理IP无效:" + ip)
            except:
                print("该代理IP无效:" + ip)
    except:
        print("IP测试失败")


if __name__ == '__main__':

    valid_IP = []  # 有效IP地址
    for i in range(1, 90):  # 可自定义页数
        ip_list = []  # 存放所有爬取到的ip
        url = "https://www.89ip.cn/index_" + str(i) + ".html"
        print(url)
        html = getHtml(url)
        getIp(html, ip_list)
        ip_text(ip_list, valid_IP)

    print("=" * 30)
    print("测试完成,有效IP如下:")
    print("-" * 30)
    for a in valid_IP:
        print(a)
    print("=" * 30)

正文结束!

欢迎关注公众号:Python爬虫数据分析挖掘

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-10-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python爬虫数据分析挖掘 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • python爬取代理IP及测试是否可用
    • 一、准备工作
      • 二、提取网页源码
        • 三、解析HTML并提取IP
          • 四、测试IP是否可用
            • 五、主函数main
            • 完整代码
            领券
            问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档