今日分享:爬虫必备库---requests库
主要从以下两点来说:
一、requests库的安装
requests库并不是python的标准库,所以需自行安装,安装起来也很简单:
以下是基于windows操作系统,保证网络畅通
按下 win R 键,输入cmd,打开命令窗口,如下输入 pip install requests,然后就会自动提示安装成功
这是requests库官方文档,对requests库有全面的介绍:http://www.python-requests.org/en/master/ 尽量看英文原版的,避免译文bug,顺便把英语学了,一举两得,实在看不懂,就加文末的交流学习群,小编想的就是这么周到(^_^)
你会发现非常醒目的几个字:Requests库:让http服务于人类,这可以理解为这就是它的宗旨,它并不晦涩难懂,上手非常容易
requests库可以说是中小规模爬虫的神器,简单来说requests库主要是用来向服务器提交某些所指定url申请 并获取网页界面内容(网页内容的源代码)。
二、requests库的安装小测
#导入requests库 ,执行不报异常则为安装成功
>>> import requests
#提交url申请 获取http网页信息
>>> response.encoding = response.apparent_encoding #转变网页编码方式
>>> response.status_code #若状态码为200,则该网页可爬取
200
>>> response.text[:1000] #打印输出页面的部分内容
'\r\n 百度一下,你就知道
到此,以上操作就已经实现了一个网页的简单爬取。以上使用的requests命令操作也是requests获取url页面时使用最多的,但是还有一些其他的操作也会用到,通过看官方的文档,你也会发现内容很多。
但是,不用担心
为了保证对爬虫感兴趣的各位能够更好的学习requests库,小编将另外发文来详细介绍requests库,为保证知识点的连续连贯性,今天就不在过多介绍,敬请期待下篇文章
赶快动手去试试上面的栗子吧,可以把其中的url网址换成其他的试试,你会发现不一样的精彩
您的点赞与转发是我们前进的最大动力!
扫码入交流学习群
专为奋斗的你
领取专属 10元无门槛券
私享最新 技术干货