专栏首页毛利学Python爬虫篇| 爬虫中的urllib库使用(三)

爬虫篇| 爬虫中的urllib库使用(三)

我们首先了解一下 Urllib 库,它是 Python 内置的 HTTP 请求库,也就是说我们不需要额外安装即可使用,它包含四个模块:

request:它是最基本的HTTP请求模块,可以用来模拟发送请求。只需要给库方法传入URL以及额外的参数,就可以模拟实现请求过程了。 error:异常处理模块,如果出现请求错误,我们可以捕获这些异常,然后进行修正。 parse:一个工具模块,提供了许多URL处理方法,比如拆分、解析、合并等。 robotparser:主要是用来识别网站的robots.txt文件,判断哪些网站可以爬哪些网站不可以爬,其实用得比较少。

怎样扒网页呢?

from urllib.request import urlopen

response = urlopen("http://www.baidu.com")
print(response.read().decode())

常见到的方法

  • requset.urlopen(url,data,timeout)
    • 第一个参数url即为URL,第二个参数data是访问URL时要传送的数据,第三个timeout是设置超时时间。
    • 第二三个参数是可以不传送的,data默认为空None,timeout默认为 socket._GLOBAL_DEFAULT_TIMEOUT
    • 第一个参数URL是必须要传送的,在这个例子里面我们传送了百度的URL,执行urlopen方法之后,返回一个response对象,返回信息便保存在这里面。
  • response.read()
    • read()方法就是读取文件里的全部内容,返回bytes类型
  • response.getcode()
    • 返回 HTTP的响应码,成功返回200,4服务器页面出错,5服务器问题
  • response.geturl()
    • 返回 返回实际数据的实际URL,防止重定向问题
  • response.info()
    • 返回 服务器响应的HTTP报头

Request对象

request模块主要负责构造和发起网络请求,并在其中添加Headers,Proxy等。 利用它可以模拟浏览器的请求发起过程。

其实上面的urlopen参数可以传入一个request请求,它其实就是一个Request类的实例,构造时需要传入Url,Data等等的内容。比如上面的两行代码,我们可以这么改写

from urllib.request import urlopen
from urllib.request import Request

request = Request("http://www.baidu.com")
response = urlopen(requst)
print (response.read().decode())

运行结果是完全一样的,只不过中间多了一个request对象,推荐大家这么写,因为在构建请求时还需要加入好多内容,通过构建一个request,服务器响应请求得到应答,这样显得逻辑上清晰明确

通过urllib发送的请求会有一个默认的Headers: “User-Agent”:“Python-urllib/3.6”,指明请求是由urllib发送的。所以遇到一些验证User-Agent的网站时,需要我们自定义Headers把自己伪装起来。

运行爬虫的时候,经常会出现被封IP的情况,这时我们就需要使用ip代理来处理,urllib的IP代理的设置如下

在开发爬虫过程中,对cookie的处理非常重要,urllib的cookie的处理如下

Get 请求

大部分被传输到浏览器的html,images,js,css, … 都是通过GET方法发出请求的。它是获取数据的主要方法

例如:www.baidu.com 搜索

Get请求的参数都是在Url中体现的,如果有中文,需要转码,这时我们可使用

  • urllib.parse.urlencode()
  • urllib.parse. quote()

parse.urlencode()

在发送请求的时候,往往会需要传递很多的参数,如果用字符串方法去拼接会比较麻烦,parse.urlencode()方法就是用来拼接url参数的。

运行结果:

也可以通过parse.parse_qs()方法将它转回字典

parse.quote()

url中只能包含ascii字符,在实际操作过程中,get请求通过url传递的参数中会有大量的特殊字符,例如汉字,那么就需要进行url编码。

例如https://www.baidu.com/s?wd=%E6%AF%9B%E5%88%A9

from  urllib import parse
url = 'https://www.baidu.com/s?wd={}'
save_url = url.format(parse.quote('毛利'))
print(save_url)
url = parse.unquote(save_url)
print(url)

https://www.baidu.com/s?wd=%E6%AF%9B%E5%88%A9
https://www.baidu.com/s?wd=毛利

我们需要将编码进行url编码

Post 请求

我们说了Request请求对象的里有data参数,它就是用在POST里的,我们要传送的数据就是这个参数data,data是一个字典,里面要匹配键值对

发送请求/响应header头的含义:

名称

含义

Accept

客户端支持的数据类型

Accept-Charset

客户端采用的编码

Accept-Encoding

客户机支持的数据压缩格式

Accept-Language

客户机的语言环境

Host

想访问的主机名

If-Modified-Since

资源的缓存时间

Referer

它是从哪个资源来访问服务器的。(一般用于防盗链)

User-Agent

客户机的软件环境

Cookie

可以向服务器带数据

Refresh

告诉浏览器隔多长时间刷新一次

Content-Type

回送数据的类型

Content-Language

告诉服务器的语言环境

Server

告诉浏览器服务器的类型

Content-Encoding

告诉浏览器数据采用的压缩格式

Content-Length

告诉浏览器回送数据的长度

响应的编码

响应状态码

响应状态代码有三位数字组成,第一个数字定义了响应的类别,且有五种可能取值。 常见状态码:

号码

含义

100~199

表示服务器成功接收部分请求,要求客户端继续提交其余请求才能完成整个处理过程

200~299

表示服务器成功接收请求并已完成整个处理过程。常用200(OK 请求成功)

300~399

为完成请求,客户需进一步细化请求。例如:请求的资源已经移动一个新地址、常用302(所请求的页面已经临时转移至新的url)、307和304(使用缓存资源)

400~499

客户端的请求有错误,常用404(服务器无法找到被请求的页面)、403(服务器拒绝访问,权限不够)

500~599

服务器端出现错误,常用500(请求未完成。服务器遇到不可预知的情况)

Ajax的请求获取数据

有些网页内容使用AJAX加载,而AJAX一般返回的是JSON,直接对AJAX地址进行post或get,就返回JSON数据了

请求 SSL证书验证

现在随处可见 https 开头的网站,urllib可以为 HTTPS 请求验证SSL证书,就像web浏览器一样,如果网站的SSL证书是经过CA认证的,则能够正常访问,如:https://www.baidu.com/

# 忽略SSL安全认证
context = ssl._create_unverified_context()
# 添加到context参数里
response = urllib.request.urlopen(request, context = context)

总结

  • 对于urllib库,个人不建议使用,只需要了解parse.urlencode()parse.quote()即可

本文分享自微信公众号 - 毛利学Python(sen13717378202),作者:小sen

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-07-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 爬虫篇|爬虫实战(十)

    要点进去继续爬取,这是爬虫最常见的方式,也是必须会的爬虫,对于这种方法,一般用框架使用的多

    润森
  • 爬虫篇| 爬取百度图片(一)

    网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用...

    润森
  • HTTP 协议格式

    参考:https://www.cnblogs.com/breka/articles/9791664.html

    润森
  • Python爬虫-04:贴吧爬虫以及GE

    如果你复制粘贴下来这个网址,出来的不是汉字,而是编码后的字节 https://www.baidu.com/s?wd=%E7%BC%96%E7%A8%8B%E5...

    用户2398817
  • Linux防火墙-SELinux、netfilter、iptables、ifconfig

    应用环境:更改单个指定网卡配置后需要重启才能生效,为了避免关闭或重启所有网卡可以对单个网卡执行该命令。 注: 如果网卡正在使用中,不要单独使用ifdown命令...

    阿dai学长
  • Excel实战技巧69: 运用类来简化验证用户输入的代码

    如下图1所示,在用户窗体中有10个文本框,只有当这些文本框都有输入时,“下一步”按钮才显示。

    fanjy
  • Google最新XSS Game Writeup

    本文介绍了如何完成谷歌最新的XSSGame的过程,完成了这八个挑战就有机会获得Nexus 5x。实际上这八个挑战总体来说都不难,都是些常见的xss。通关要求是只...

    FB客服
  • 智慧社区打造内核,发展前景令人期待

    智慧社区发展一路走来,实属不易,2016年之前,智慧社区更多是借助移动互联网+服务,打造掌上社区平台。由于移动互联网具有局限性,初期并没有牢牢抓住业主的心,智慧...

    AI社区
  • 开发 | 如何在小程序中,获取微信群 ID?

    微信在 5 月 8 日晚间,突然又宣布了一个新能力——小程序可以读取微信群的唯一 ID。

    知晓君
  • 写Laravel测试代码(1)

    写laravel程序时,除了写生产代码,还需要写测试代码。其中,写数据库测试比较麻烦,因为需要针对每一个test case需要建立好数据集,该次test cas...

    botkenni

扫码关注云+社区

领取腾讯云代金券

玩转腾讯云 有奖征文活动