首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

爬虫第一步 Request库初识

通用代码框架

defgetHTMLText(url):

try :

r.requests.get (url,timeout = 30 )

r.raise_for_status()

r.encoding = r.apparent_encoding

return t.text

except :

return"产生异常"

注:

r.status_code http 请求的返回状态

r.txthttp 响应内容的字符串形式

r.encoding 从header猜测内容编码方式

r.apparent_encoding 从内容分析编码方式

r.content http 响应二进制形式

r.raise_for_status () 如果状态不是200,引发httperror异常

Request库的异常:

什么是HTTP协议

http协议:

http :// host [:port][path ]

host 主机域名或ip

port 端口号

path 资源路径

http协议对资源的操作

注:

put覆盖原信息

patch 局部更新

requests库的方法(七种)

requests.request方法(七种)

**kwargs 访问控制参数

params作为参数增加到URL中

data向服务器提交资源 将资源存到当前URL位置

jsonJSON格式的数据 和data 类似

headersHTTP 的定制头 控制访问形式 可模拟任意浏览器

cookiesCookieJar 或字典 request中cookie

auth元组 支持http认证功能

iles 传输文件

timeout超时时间

proxies设定访问代理服务器 可增加登陆认证

allow_redirectstrue/false 默认为true重定向开关

streamtrue/false 默认为true 获取内容下载开关

verfytrue/false 默认为true 认证SSL证书开关

cert本地SSL证书保路径

-----------------------------------------------------------------------------------------------------------

下期预告:pathon爬虫实战

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180422G02PXA00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券