Python爬虫基础知识:抓取糗百的项目实战及源码

豌豆贴心提醒,本文阅读时间7分钟

项目内容:

用Python写的糗事百科的网络爬虫。

使用方法:

新建一个Bug.py文件,然后将代码复制到里面后,双击运行。

程序功能:

在命令提示行中浏览糗事百科。

原理解释:

首先,先浏览一下糗事百科的主页:http://www.qiushibaike.com/hot/page/1

可以看出来,链接中page/后面的数字就是对应的页码,记住这一点为以后的编写做准备。

然后,右击查看页面源码:

观察发现,每一个段子都用div标记,其中class必为content,title是发帖时间,我们只需要用正则表达式将其“扣”出来就可以了。

明白了原理之后,剩下的就是正则表达式的内容了。

运行效果:

源码:


本文分享自微信公众号 - 马哥Linux运维(magedu-Linux)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-03-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏SpringBoot 核心技术

第十二章:SpringBoot使用LogBack作为日志组件

17940
来自专栏较真的前端

PWA 入门: 写个非常简单的 PWA 页面

89950
来自专栏nummy

sphinx入门指南【2】 toctree指令详解

reST本身并不支持同时与多个文档进行交互,或者说将一个文档保存到多个文件中。Sphinx提供了自定义指令toctree来支持实现这个功能。

16330
来自专栏小白安全

sqlmap之POST登陆框注入方式一

注入方式一: 1.用Burp抓包,然后保存抓取到的内容。例如:保存为post.txt,然后把它放至某个目录下 ? 2.列数据库: sqlma...

72960
来自专栏木子昭的博客

最简单靠谱的vsftpd安装指南(Ubuntu16.04)

vsftp (very secure FTP daemon)意为非常安全的ftp进程 特点:小巧|免费 | 安全,是Linux下最受推崇的ftp服务 -...

39480
来自专栏腾讯云实验室

搭建微信订阅号后台

腾讯云提供了开发者实验室帮助用户搭建微信订阅号后台,教程内容如下,用户可以点击开发者实验室快速上机完成实验。

1.1K40
来自专栏醉程序

获取多说评论数并集成到Typecho

15420
来自专栏Python自动化测试

python自动化环境搭建

selenium是测试web应用程序的框架,selenium为没有测试脚本的人提供了(seleniumide)提供了录制/回放的工具,同时它也提供了特定...

31230
来自专栏有趣的django

CRM客户关系管理系统(十) 第十章、kingadmin+admin+actions功能开发

29800
来自专栏前端开发

一个简单的零配置命令行HTTP服务器 - http-server (nodeJs)

24350

扫码关注云+社区

领取腾讯云代金券