首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

python3 爬虫-爬取糗事百科

这次爬取的网站是糗事百科,网址是: http://www.qiushibaike.com/hot/page/1

分析网址,参数 ' page/ '后面的数字' 1 '指的是页数,第二页就是' /page/2 ',以此类推。。。

一、分析网页

网页图片

然后明确要爬取的元素:作者名、内容、好笑数、以及评论数量

每一个段子的信息存放在' div id=" content-left" '下的 div 中

爬取元素的所在位置

二、爬取部分

工具:

Python3

requests

xpath

1、获取每一个段子

每一个段子都在div中,这里用xpath,筛选出来后返回的是一个列表,每一个div都在里面

2、获取每一个段子中的元素

这里需要注意的是,xpath返回的是一个列表,筛选出来后需要用 [0] 获取到字符串类型

上面的代码中,爬取的内容里,有的段子是这样的,如下图:

内容中会有标签

,那么用xpath爬取出来后,里面的内容都会成一个列表(这里的div就是列表),

那div[0]就是" 有一次回老家看姥姥,遇到舅妈说到表弟小时候的事~ ",所以需要将div转换成字符串

其他的部分就xpath语法的使用

3、保存进文本

4、全部代码

结束语

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171223A0RDJI00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券