本节课,我们试着来写一个基础的爬虫,来爬取一下豆瓣读书top250的内容;主要涉及的知识就是我们之前讲过的requests库。
我们先选取一个待会准备爬取的网站,咱们选个较好爬的网页,豆瓣读书Top250的页面:https://book.douban.com/top250
豆瓣读书Top250网页展示
这里,我们使用谷歌浏览器自带的工具来进行分析:Network
检查网页元素
image.png
Name
:文件名称Status
:请求状态码Type
:文件内容Initiator
:发送请求的对象Size
:数据传输时的大小Time
:响应时间请求地址
(Request URL):book.douban.com/top250
HTTP请求方法
(Request Method):get
HTTP请求方法
获取用户代理信息
获取用户代理信息
#导入requests库
import requests
#将用户代理信息放入请求头中,把爬虫伪装成浏览器,注意不要忘记键值对需要加上''
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.162 Safari/537.36'
}
#将目标地址存入变量url
url = 'https://book.douban.com/top250'
#以get方法获取网页数据并将response对象存入res
res = requests.get(url , headers = headers)
#打印网页数据
print(res.status_code)
#输出:200
我们之前讲过200表示状态码,是请求成功的意思,我们继续将网页数据打印出来看看
#打印网页文本内容
print(res.text)
输出结果
从上面输出结果可以看出,我们确实爬取到了网页数据,只是这个样子的数据对于我们非常的不友好,全是英文代码,而我们的目标数据就夹在其中。