python3 爬虫-爬取糗事百科

文章来源：企鹅号 - Python热爱着

这次爬取的网站是糗事百科，网址是： http://www.qiushibaike.com/hot/page/1

分析网址，参数 ' page/ '后面的数字' 1 '指的是页数，第二页就是' /page/2 '，以此类推。。。

一、分析网页

网页图片

然后明确要爬取的元素：作者名、内容、好笑数、以及评论数量

每一个段子的信息存放在' div id=" content-left" '下的 div 中

爬取元素的所在位置

二、爬取部分

工具：

Python3

requests

xpath

1、获取每一个段子

每一个段子都在div中，这里用xpath，筛选出来后返回的是一个列表，每一个div都在里面

2、获取每一个段子中的元素

这里需要注意的是，xpath返回的是一个列表，筛选出来后需要用 [0] 获取到字符串类型

上面的代码中，爬取的内容里，有的段子是这样的，如下图：

内容中会有标签

，那么用xpath爬取出来后，里面的内容都会成一个列表（这里的div就是列表），

那div[0]就是" 有一次回老家看姥姥，遇到舅妈说到表弟小时候的事～ "，所以需要将div转换成字符串

其他的部分就xpath语法的使用

3、保存进文本

4、全部代码

结束语

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货