专栏首页python3爬虫养成记 - 网络下载器urllib

爬虫养成记 - 网络下载器urllib

urllib2是python2.x下的一个模块,在Python3.x中,urllib2被拆分成urllib.request和urllib.error.

实现一个最简单的下载器

使用urllib2.urlopen(url)函数可以给服务器发送一个请求。 该函数返回一个file-like object. 该返回的对象有三个额外的函数:

  • geturl() 取得服务器返回的url。一般用来判断是否需要重定向。
  • info() 获取页面的meta信息
  • getcode() 获取响应的http状态码

例如我们写了一小段程序

import urllib2

response = urllib2.urlopen("http://www.baidu.com")
print response.getcode()
print response.info()

用来下载百度首页的内容。

构造一个request对象

urllib2.urlopen()函数不仅仅能接收一个url字符串,还能接收一个request对象。 我们可以在Request对象中添加数据和header。

设置请求头

import urllib2

request = urllib2.Request('https://www.zhihu.com/question/28593608/answer/141936198')
request.add_header('User-Agent', 'Mozilla/5.0')

response = urllib2.urlopen(request)
print response.read()

Post请求方法和在请求中添加数据

上面的代码是一个爬取知乎某一个回答的代码。我们可以看到,我们并没有在request中添加data。 urllib2 默认没有data的,请求方式为GET。 urllib2 如果添加了data,那么请求方式为POST。 例如:

import urllib

values = {
    "name": "charlie",
    "age": 20,
    "gender": "male"
}

data = urllib.urlencode(values)

request.add_data(data)

我们使用POST方式提交数据的时候,我们需要创建一个字典型数据,并且用urllib.urlencode()函数将器编码成字符串,并用Request.add_data()函数添加到request中。

cookie、https、Proxy、HttpRedirect

实际情况中,往往比上面的更加复杂,例如很多网站会设置cookie、可以会使用https加密传输,可能会设置代理,会有重定向等。 如何要处理上面这些特殊的情境,那么我们则需要添加特殊的处理器。

  • HTTPCookieProcessor
  • ProxyHandler
  • HTTPHandler
  • HTTPRedirectHandler

构造好上述对象后,需要运用urllib2.build_opener()创建一个opener. 然后将opener安装到urllib2中: urllib2.install_opener(opener)。 例如:

import urllib2
import cookielib

cookie_jar = cookielib.CookieJar()
cookie_processor = urllib2.HTTPCookieProcessor(cookiejar=cookie_jar)
opener = urllib2.build_opener(cookie_processor)
urllib2.install_opener(opener)

response = urllib2.urlopen("http://www.baidu.com")
for item in cookie_jar:
    print item.name, item.value

如上述代码所示,我们先新建了一个CookieJar。CookieJar是一个内存中保存cookie的对象。 然后我们构造一个cookie的处理器——HTTPCookieProcessor。 然后我们在根据cookie处理器构造一个opener。

opener的概念

opener我们可以理解成打开网页获取response的东西。默认的opener只能接收url、data或resquest等的一个opener。 如果我们想要获得更加多的功能,那么我们就需要构造一个有HttpCookieProcessor的opener。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • PHP图片文字合成居中

    PHP使用GD库创建和处理包括GIF,PNG,jpef,wbmp以及xpm在内的多种格式的图像。

    宣言言言
  • 手把手教你写一个composer包

    Composer 是一个命令行工具,它的作用就是帮我们的项目管理所依赖的开发包,属于依赖包管理工具。

    北溟有鱼QAQ
  • 用Python做一个简单的翻译工具

    编程本身是跟年龄无关的一件事,不论你现在是十四五岁,还是四五十岁,如果你热爱它,并且愿意持续投入其中,必定会有所收获。

    Crossin先生
  • php对象字段声明,easyswoole ORM 快速生成注释

    在PHPSTORM IDE中,我们可以通过注释给类写明可调用字段名,这样子才有语法提示。

    宣言言言
  • 手把手教你写一个composer包

    Composer 是一个命令行工具,它的作用就是帮我们的项目管理所依赖的开发包,属于依赖包管理工具。

    宣言言言
  • pytest文档29-allure-pytest(最新最全,保证能搞成功!)

    之前写了个pytest的allure相关的教程,只是停留在环境搭建完成,后续一直没用,小编一直不喜欢这种花里胡哨的报告。 没办法,领导就喜欢这种,小伙伴们也喜欢...

    上海-悠悠
  • #PY小贴士# 抓下来的网页为什么没有我要的内容?

    现在绝大多数网站的内容并非直接通过你访问的 URL 请求直接返回,而是会通过一种叫做 AJAX 的方法,在页面的基本框架加载完毕后,再通过其他的请求向后台服务器...

    Crossin先生
  • laravel 学习之路 控制器Controller

    前面学习了路由可以分发请求还可以引入html页面,这些都可以在 route/web.php 中搞定。

    风清醉
  • PHP类,魔术方法

    析构函数,当类被手动销毁,或者脚本结束时,gc回收触发。可以执行一些后置操作,比如删除临时目录下的文件。

    宣言言言
  • Windows下破解Navicat

    5、运行命令,然后一直回车 navicat-patcher.exe "D:\Program Files\PremiumSoft\Navicat Premium ...

    北溟有鱼QAQ

扫码关注云+社区

领取腾讯云代金券