爬虫实战之爬取糗事百科

抓住元旦的尾巴,祝大家元旦快乐、2018一起努力18!!!

去年(也就是前几天)分享了一篇爬虫实战的文章:爬虫实战之暴走表情包下载实现了网页图片的下载保存。

今日分享:简单爬取糗事百科段子

看过上一篇文章的读者可以看出,其实爬虫程序主要分为四个大的框架:获取网页,分析网页,解析并提取目标信息,打印输出或保存到本地。

下面看一下爬取糗事百科段子的流程:

导入基本库

由于爬虫比较简单,使用之前分享的两个库即可实现功能。

获取网页

获取网页,仍是使用模板框架

解析网页并提取信息

小编就不在这放置网页源码的截图了,网页地址在主函数中,赶快自己动手结合代码去分析一下吧!

打印输出内容

本次爬取的结果是在Python的交互界面打印输出的,在后续的文章中会分享如何将内容保存到各种格式的文档中,敬请期待

主函数

这就是整个爬虫的主框架,具体功能还是依靠上面的几个函数。

最后调用主函数,即可完成。

下面是爬虫打印输出的结果:

爬取结果截图

本爬虫代码上传已分享至QQ学习交流群,如若需要请自行获取

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180101G0MWOO00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券