前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >爬虫之proxy(代理)

爬虫之proxy(代理)

作者头像
人生不如戏
发布2018-05-30 14:59:36
8420
发布2018-05-30 14:59:36
举报
文章被收录于专栏:抠抠空间

proxy简介

proxy即为代理,我们爬虫的时候肯定会有频繁访问某一网站的情况,这个时候有些服务器会识别到我们是非正常访问,就会把我们的IP禁掉,这个时候就需要用代理了。

就好比现实生活中,我需要向A借一件东西,但是我跟A是仇人,直接向他借的话他不会借给我,这个时候我就让B帮我像A借,就说他要用,然后B借到东西之后再把东西给我用,这时,B就是我的代理了。

常用的免费代理网站:http://www.goubanjia.com/。

爬虫应该选择什么样的代理?

  • 针对不需要用户登录,cookie验证的网站,一般选择动态高匿代理。
  • 对于需要用户登录,身份认证的。一般选择静态IP

使用proxy的步骤

  1. 设置代理地址 proxy = {'http':'52.187.162.198:3128'}
  2. 创建ProxyHeader proxyHeader = request.ProxyHandler(proxy)
  3. 创建Opener opener = request.build_opener(proxyHeader)
  4. 安装Opener request.install_opener(opener)

示例

代码语言:javascript
复制
from urllib import request

# 设置代理地址
proxy = {'http':'52.187.162.198:3128'}

# 创建ProxyHeader
proxyHeader = request.ProxyHandler(proxy)

# 创建Opener
opener = request.build_opener(proxyHeader)

# 安装Opener
request.install_opener(opener)

# 然后剩下的就跟正常使用差不多,只不过此时的request已经是绑定了代理之后的request
url = 'https://www.taobao.com/'
req = request.Request(url)
response = request.urlopen(req)
print(response.read().decode())
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2018-05-10 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • proxy简介
  • 爬虫应该选择什么样的代理?
  • 使用proxy的步骤
  • 示例
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档