urllib2是python2.x下的一个模块,在Python3.x中,urllib2被拆分成urllib.request和urllib.error.
使用urllib2.urlopen(url)
函数可以给服务器发送一个请求。
该函数返回一个file-like object. 该返回的对象有三个额外的函数:
例如我们写了一小段程序
import urllib2
response = urllib2.urlopen("http://www.baidu.com")
print response.getcode()
print response.info()
用来下载百度首页的内容。
urllib2.urlopen()
函数不仅仅能接收一个url字符串,还能接收一个request对象。
我们可以在Request对象中添加数据和header。
import urllib2
request = urllib2.Request('https://www.zhihu.com/question/28593608/answer/141936198')
request.add_header('User-Agent', 'Mozilla/5.0')
response = urllib2.urlopen(request)
print response.read()
上面的代码是一个爬取知乎某一个回答的代码。我们可以看到,我们并没有在request中添加data。 urllib2 默认没有data的,请求方式为GET。 urllib2 如果添加了data,那么请求方式为POST。 例如:
import urllib
values = {
"name": "charlie",
"age": 20,
"gender": "male"
}
data = urllib.urlencode(values)
request.add_data(data)
我们使用POST方式提交数据的时候,我们需要创建一个字典型数据,并且用urllib.urlencode()
函数将器编码成字符串,并用Request.add_data()
函数添加到request中。
实际情况中,往往比上面的更加复杂,例如很多网站会设置cookie、可以会使用https加密传输,可能会设置代理,会有重定向等。 如何要处理上面这些特殊的情境,那么我们则需要添加特殊的处理器。
构造好上述对象后,需要运用urllib2.build_opener()
创建一个opener
.
然后将opener安装到urllib2中: urllib2.install_opener(opener)。
例如:
import urllib2
import cookielib
cookie_jar = cookielib.CookieJar()
cookie_processor = urllib2.HTTPCookieProcessor(cookiejar=cookie_jar)
opener = urllib2.build_opener(cookie_processor)
urllib2.install_opener(opener)
response = urllib2.urlopen("http://www.baidu.com")
for item in cookie_jar:
print item.name, item.value
如上述代码所示,我们先新建了一个CookieJar。CookieJar是一个内存中保存cookie的对象。 然后我们构造一个cookie的处理器——HTTPCookieProcessor。 然后我们在根据cookie处理器构造一个opener。
opener我们可以理解成打开网页获取response的东西。默认的opener只能接收url、data或resquest等的一个opener。 如果我们想要获得更加多的功能,那么我们就需要构造一个有HttpCookieProcessor的opener。