通用代码框架
defgetHTMLText(url):
try :
r.requests.get (url,timeout = 30 )
r.raise_for_status()
r.encoding = r.apparent_encoding
return t.text
except :
return"产生异常"
注:
r.status_code http 请求的返回状态
r.txthttp 响应内容的字符串形式
r.encoding 从header猜测内容编码方式
r.apparent_encoding 从内容分析编码方式
r.content http 响应二进制形式
r.raise_for_status () 如果状态不是200,引发httperror异常
Request库的异常:
什么是HTTP协议
http协议:
http :// host [:port][path ]
host 主机域名或ip
port 端口号
path 资源路径
http协议对资源的操作
注:
put覆盖原信息
patch 局部更新
requests库的方法(七种)
requests.request方法(七种)
**kwargs 访问控制参数
params作为参数增加到URL中
data向服务器提交资源 将资源存到当前URL位置
jsonJSON格式的数据 和data 类似
headersHTTP 的定制头 控制访问形式 可模拟任意浏览器
cookiesCookieJar 或字典 request中cookie
auth元组 支持http认证功能
iles 传输文件
timeout超时时间
proxies设定访问代理服务器 可增加登陆认证
allow_redirectstrue/false 默认为true重定向开关
streamtrue/false 默认为true 获取内容下载开关
verfytrue/false 默认为true 认证SSL证书开关
cert本地SSL证书保路径
-----------------------------------------------------------------------------------------------------------
下期预告:pathon爬虫实战
领取专属 10元无门槛券
私享最新 技术干货