写了个爬虫代理ip的脚本给大家使用

小小咸鱼YwY

发布于 2019-09-11 10:17:25

5820

发布于 2019-09-11 10:17:25

文章被收录于专栏：python-爬虫

写了个爬虫代理ip的脚本给大家使用

一.代码

import requests
from lxml.html import etree


url = 'http://www.kuaidaili.com/free/'
rp =requests.get(url)
rp_html = etree.HTML(rp.text)

#找xpath
ip_xpath = '//*[@id="list"]/table/tbody/tr/td[1]/text()'
port_xpath = '//*[@id="list"]/table/tbody/tr/td[2]/text()'
http_or_https_xpath ='//*[@id="list"]/table/tbody/tr/td[4]/text()'

#匹配内容
ip_list = rp_html.xpath(ip_xpath)
port_list = rp_html.xpath(port_xpath)
http_or_https_list = rp_html.xpath(http_or_https_xpath)

#进行组合
list_zip = zip(ip_list,port_list,http_or_https_list)
proxy_dict= {}
proxy_list = []
for ip,port,http_or_https in list_zip:
    proxy_dict[http_or_https] = f'{ip}:{port}'
    proxy_list.append(proxy_dict)
    proxy_dict = {}
print(proxy_list)
#list就是啦,你们可以用random模块随机选一个进行后续的爬取

#一页不够嘛那我们就爬十写
#先看规则
'''
第一页:https://www.kuaidaili.com/free/inha/1/
第二页: https://www.kuaidaili.com/free/inha/2/
后面就不用说了吧
'''

http://www.kuaidaili.com/free/这个ip代理网站不错哈

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2019-07-31 ，如有侵权请联系 cloudcommunity@tencent.com 删除

tcp/ip

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

tcp/ip

登录后参与评论

0 条评论

热度

写了个爬虫代理ip的脚本给大家使用

写了个爬虫代理ip的脚本给大家使用

写了个爬虫代理ip的脚本给大家使用

一.代码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐