Python-数据挖掘-网络异常
一、requests 库
requests 是基于 Python 开发的 HTTP 库。例如,使用 Cookie 保持会话、自动确定响应内容的编码等。
requests 库中常用的类:
Request 类的对象表示一个请求,它的生命周期针对一个客户端请求,一旦请求发送完毕,该请求包含的内容就会被释放掉。而 Session 类的对象可以跨越多个页面,它的生命周期同样针对的是一个客户端。当关闭这个客户端的浏览器时,只要是在预先设置的会话周期内(一般是20~30 min),这个会话包含的内容会一直存在,不会被马上释放掉。
二、使用 requests 库以 GET 请求的方式爬取网页:
# 导入 requests 库
import requests
# 请求的 URL 路径和查询参数
url = "http://www.baidu.com/s"
param = {"wd": "课聘"}
# 请求报头
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36"
}
# 发送 GET 请求,返回一个响应对象
response = requests.get(url, params=param, headers=headers)
# 查看响应的内容
print(response.text)
使用 requests 库减少了发送请求的代码量。