专栏首页日常学python搭建属于自己的代理ip池

搭建属于自己的代理ip池

这是我的第六篇原创文章

继上一篇说了反爬虫之后,我说今天这篇文章会搭建一个属于自己的代理ip池,所以,为了不食言,就写了这篇文章,那好废话不多说,进入正题

1

目标网站

爬取代理ip,这也需要找网页,这就得看看哪个网页提供这些代理ip了,本人知道了几个免费提供代理ip的网站,如下:

  • 无忧代理ip
  • 芝麻代理ip
  • 西刺代理ip
  • 云连代理ip

我选择了爬取西刺代理的网站。

2

分析网站结构

我们需要获取的高匿代理,按下F12打开开发者工具

上面我们要获取的数据是ip地址,端口和类型这三个就可以了,可以看到,这些数据都在一个tr标签里,但是有两个不同的tr标签,这样可以用正则表达式,利用相隔的html结构先把整个内容匹配下来,再把重要信息匹配下来,最后就把他弄成这个样子{'https': 'https://ip:端口'}存入列表即可,最后就随机获取一个ip,然后可以先判断是否有用,再拿来做你此时项目的代理ip,判断是否用的方法就是随便拿一个百度获取别的网站,加上代理ip发送get请求,看看status_code()的返回码是不是200,即可,就如下面这样

3

代码部分

1.匹配数据,并挑选数据存入列表

2.随机获取ip,并写好ip格式

我这里是把他存入列表,现抓现用,是因为我现在的爬虫项目都是很小的,只需要这些就可以了。

END

以上就是我简单搭建的代理ip池了,等到以后慢慢完善,你可以把他们存入你的数据库,然后要用的时候,就随机拿出来,先看看有没有用,没用的话就删除,有用就拿来用即可。

本文分享自微信公众号 - 日常学python(daily_learn)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-02-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • python爬虫基础之正则表达式

    Python基础前期后后看了五六遍,除了能读懂一些简单的代码,一直也没有进阶。 这次借助一个爬虫教学视频。把学习中的一些重点写下来,一个是自己巩固,一个是也帮助...

    用户1467662
  • 百篇(九):使用wechatsogou抓取公众号文章并发送邮件

    作为一个 coder 我们每天都在看一些书,博客或者大牛的公众号,生怕被技术淘汰. 但是订阅多个公众号,每天看公众号是否有新消息,也要浪费大量的时间和精力,如果...

    777
  • Python 爬虫 2 爬取多页网页

    参考资料:极客学院: Python单线程爬虫 代码:2.Single-thread-crawler.ipynb 本文内容: Requests.get 爬取多个页...

    杨熹
  • 用Python分析周杰伦6.5W字的歌词,原来他是这样的人

    前一段时间分析民谣歌词的那边文章特别火,刚好在研究使用python处理数据,就也想弄个类似东西练练手。于是乎,拉上自己亲妹妹 @张小黑 就开始分工。 ? 一...

    AI研习社
  • 不踩坑的Python爬虫:如何在一个月内学会爬取大规模数据

    Python爬虫为什么受欢迎 如果你仔细观察,就不难发现,懂爬虫、学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面,像 Python这样的...

    机器学习AI算法工程
  • 网络爬虫项目介绍及简单例子

    爬虫的目的: 可以获得自己想要的信息,如果是电商公司可以获得竞争对手的商品价格,可以参考; 政府部门可以爬虫新闻类的网站,爬虫评论查看舆论;...

    用户1410343
  • 把玩爬虫框架Gecco

    如果你现在接到一个任务,获取某某行业下的分类。 作为一个非该领域专家,没有深厚的运营经验功底,要提供一套摆的上台面且让人信服的行业分类,恐怕不那么简单。 找不到...

    JackieZheng
  • Python 爬虫 1 快速入门

    Python 爬虫 快速入门 参考资料:极客学院: Python定向爬虫 代码:1.crawler-basic.ipynb 本文内容: 正则表达式 用正则表达式...

    杨熹
  • 设计和实现一款轻量级的爬虫框架

    作者:王爵nice ,来自架构文摘(ID:ArchDigest) 说起爬虫,大家能够想起 Python 里赫赫有名的 Scrapy 框架, 在本文中我们参考这...

    架构师小秘圈
  • 爬虫代理哪家强?十大付费代理详细对比评测出炉!

    前言 随着大数据时代的到来,爬虫已经成了获取数据的必不可少的方式,做过爬虫的想必都深有体会,爬取的时候莫名其妙 IP 就被网站封掉了,毕竟各大网站也不想自己的...

    崔庆才

扫码关注云+社区

领取腾讯云代金券