Python网络爬虫与信息提取-北京理工大学-嵩天 发布大学:北京理工大学 发布课程:Python网络爬虫与信息提取 授课老师:嵩天 课程简介:“The website is the API.”网络爬虫逐渐成为自动获取网络信息的主要形式 还等什么?快写个爬虫探索世界吧!
win + R,pip install requests
r = requests.get(url) 获得一个网页最简单的方法
r = requests.get(url)完整的使用方法:r = requests.get(url,params=None,kwargs) url:拟获取页面的URL链接 params: URL中的额外参数、字典或字节流格式,可选 kwargs:12个控制访问的参数 根据源代码可知,Requests库的7个主要方法,后面6个都是调用requests.request()来实现的
requests库的2个重要对象
Response对象的属性
基本流程:
理解Response的编码 r.encoding:从HTTP header中猜测的响应内容编码形式 r.apparent_encoding:从内容中分析出的响应内容编码方式(备选编码方式)
requests.request(method,url,**kwargs)
**kwargs:控制访问的参数,均为可选项 params:字典或字节序列,作为参数增加到URL中
例子:
kv = {'key1':'value1','key2':'value2'}
r = requests.request('get','http://python123.io/ws,params=kv')
print(r.url)
结果:http://python123.io/ws?key1=value1&key2=value2
通过改方法可以把一些键值对增加到URL中。 服务器可以根据此去筛选一些资源。