前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【MOOC】Python网络爬虫与信息提取

【MOOC】Python网络爬虫与信息提取

作者头像
一点儿也不潇洒
发布2018-08-07 10:02:08
4360
发布2018-08-07 10:02:08
举报
文章被收录于专栏:肖洒的博客肖洒的博客
image.png
image.png

Python网络爬虫与信息提取-北京理工大学-嵩天 发布大学:北京理工大学 发布课程:Python网络爬虫与信息提取 授课老师:嵩天 课程简介:“The website is the API.”网络爬虫逐渐成为自动获取网络信息的主要形式 还等什么?快写个爬虫探索世界吧!

单元1:Requests库入门

Request库的安装

win + R,pip install requests

Requests库的7个主要方法

  • requests.request() 构造一个请求,支撑以下各方法的基础方法
  • requests.get() 获取HTML网页的主要方法,对应于HTTP的GET
  • requests.head 获取HTML网页头信息的方法,对应于HTTP的HEAD
  • requests.post 向HTML网页提交POST请求的方法,对应于HTTP的POST
  • requests.put() 向HTML网页提交PUT请求的方法,对应于HTTP的PUT
  • requests.patch() 向HTML网页提交局部修改请求,对应于HTTP的PATCH
  • requests.delete() 向HTML页面提交删除请求,对应于HTTP的DELETE
requests.get()

r = requests.get(url) 获得一个网页最简单的方法

image.png
image.png

r = requests.get(url)完整的使用方法:r = requests.get(url,params=None,kwargs) url:拟获取页面的URL链接 params: URL中的额外参数、字典或字节流格式,可选 kwargs:12个控制访问的参数 根据源代码可知,Requests库的7个主要方法,后面6个都是调用requests.request()来实现的

requests库的2个重要对象

image.png
image.png

Response对象的属性

  • r.status_code:HTTP请求的返回状态,200表示连接成功,404表示失败
  • r.text:HTTP响应内容的字符串形式,即URL对应的页面内容
  • r.encoding:从HTTP header中猜测的响应内容编码方式
  • r.apparent_encoding:从内容中分析出响应内容编码方式(备选编码方式)
  • r.content:HTTP响应内容的二进制形式

基本流程:

image.png
image.png

理解Response的编码 r.encoding:从HTTP header中猜测的响应内容编码形式 r.apparent_encoding:从内容中分析出的响应内容编码方式(备选编码方式)

requests库的主要解析方法

image.png
image.png
requests的13个访问控制参数

requests.request(method,url,**kwargs)

**kwargs:控制访问的参数,均为可选项 params:字典或字节序列,作为参数增加到URL中

例子:

代码语言:javascript
复制
kv = {'key1':'value1','key2':'value2'}
r = requests.request('get','http://python123.io/ws,params=kv')

print(r.url)

结果:http://python123.io/ws?key1=value1&key2=value2

通过改方法可以把一些键值对增加到URL中。 服务器可以根据此去筛选一些资源。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2017-10-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 单元1:Requests库入门
    • Request库的安装
      • Requests库的7个主要方法
        • requests.get()
      • requests库的主要解析方法
        • requests的13个访问控制参数
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档