前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python-数据挖掘-requests库

Python-数据挖掘-requests库

作者头像
小团子
发布2019-07-18 15:09:36
4780
发布2019-07-18 15:09:36
举报
文章被收录于专栏:数据云团

Python-数据挖掘-网络异常

一、requests 库

requests 是基于 Python 开发的 HTTP 库。例如,使用 Cookie 保持会话、自动确定响应内容的编码等。

requests 库中常用的类:

  • requests.Request:表示请求对象,用于将一个请求发送到服务器;
  • requests.Response:表示响应对象,其中包含服务器对 HTTP 请求的响应。
  • requests.Session:表示请求会话,提供 Cookie 持久性、连接池和配置。

Request 类的对象表示一个请求,它的生命周期针对一个客户端请求,一旦请求发送完毕,该请求包含的内容就会被释放掉。而 Session 类的对象可以跨越多个页面,它的生命周期同样针对的是一个客户端。当关闭这个客户端的浏览器时,只要是在预先设置的会话周期内(一般是20~30 min),这个会话包含的内容会一直存在,不会被马上释放掉。

二、使用 requests 库以 GET 请求的方式爬取网页:

代码语言:javascript
复制
# 导入 requests 库
import requests 
# 请求的 URL 路径和查询参数
url = "http://www.baidu.com/s"
param = {"wd": "课聘"}
# 请求报头
headers = {
  "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36"
}
# 发送 GET 请求,返回一个响应对象
response = requests.get(url, params=param, headers=headers)
# 查看响应的内容
print(response.text)

使用 requests 库减少了发送请求的代码量。

  • 无须再转换为 URL 路径编码格式拼接完整的 URL 路径。
  • 无须再频繁地为中文转换编码格式
  • urlopen() 方法返回的是一个文件对象,需要调用 read() 方法一次性获取;而 get() 函数返回的是一个响应对象,可以访问该对象的 text 属性查看响应的内容。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-03-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据云团 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档