前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >隧道转发相同请求一个IP

隧道转发相同请求一个IP

原创
作者头像
用户6172015
修改2020-11-06 17:47:28
8270
修改2020-11-06 17:47:28
举报
文章被收录于专栏:网络爬虫

随着网络爬虫的增多,越来越多的人使用代理IP,从之前的传统的API代理到如今的隧道转发爬虫代理。使用代理的方式也多变化了。传统的API代理调用方式也不比多说,相信许多爬虫也都知道如何去调试API接口。其实隧道转发的爬虫代理是大家不常见的使用方式,大家都想知道如何去调用隧道转发的爬虫代理。一般网络爬虫使用Python语言偏多。我们就以python爬虫为例去调用隧道转发的爬虫代理

这里以scrapy例举demo:

代码语言:javascript
复制

        #! -*- encoding:utf-8 -*-
        import base64            
        import sys
        import random

        PY3 = sys.version_info[0] >= 3

        def base64ify(bytes_or_str):
            if PY3 and isinstance(bytes_or_str, str):
                input_bytes = bytes_or_str.encode('utf8')
            else:
                input_bytes = bytes_or_str

            output_bytes = base64.urlsafe_b64encode(input_bytes)
            if PY3:
                return output_bytes.decode('ascii')
            else:
                return output_bytes

        class ProxyMiddleware(object):                
            def process_request(self, request, spider):
                # 代理服务器(产品官网 www.16yun.cn)
                proxyHost = "t.16yun.cn"
                proxyPort = "31111"

                # 代理验证信息
                proxyUser = "username"
                proxyPass = "password"

                request.meta['proxy'] = "http://{0}:{1}".format(proxyHost,proxyPort)

                # 添加验证头
                encoded_user_pass = base64ify(proxyUser + ":" + proxyPass)
                request.headers['Proxy-Authorization'] = 'Basic ' + encoded_user_pass                    

                # 设置IP切换头(根据需求)
                tunnel = random.randint(1,10000)
                request.headers['Proxy-Tunnel'] = str(tunnel)
                通过用户名和密码的形式进行身份认证,该认证信息最终会转换为协议头跟随请求一起发出

这里就许多爬虫用户反问,使用传统的API代理去采集数据,可以多个请求在一个IP上发出,那隧道转发的爬虫代理如何实现这种功能,其实这个问题完全不用担心,早在开发隧道转发的爬虫代理时已经解决了这个问题。

Proxy-Tunnel自主切换IP:

该模式适合一些需要登陆、Cookie缓存处理等爬虫需要精确控制IP切换时机的业务。 爬虫程序可以通过设置HTTP头Proxy-Tunnel: 随机数, 当随机数相同时,访问目标网站的代理IP相同。

例如:需要登录,获取数据两个请求在一个IP下,只需对这组请求设置相同Proxy-Tunnel,例如:Proxy-Tunnel: 12345, 该组请求在代理有效期内使用相同的代理IP。

注意:同一时间不同请求组可以设置不同Proxy-Tunnel: 随机数,并发完成数据爬取。

使用相同IP访问HTTPS目标网站:使用Connection: keep-alive和Proxy-Connection: keep-alive方式访问目标网站,代理会确保在一个会话中的所有请求都通过一个IP到达目标网站 2 设置相同Proxy-Tunnel,有些库封装比较高层次,请务必确认向代理发送了该HTTP头。

代码语言:javascript
复制
                 # 设置IP切换头(根据需求)                 tunnel = random.randint(1,10000)                 request.headers['Proxy-Tunnel'] = str(tunnel)

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
云服务器
云服务器(Cloud Virtual Machine,CVM)提供安全可靠的弹性计算服务。 您可以实时扩展或缩减计算资源,适应变化的业务需求,并只需按实际使用的资源计费。使用 CVM 可以极大降低您的软硬件采购成本,简化 IT 运维工作。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档