爬虫实战一:爬取当当网所有 Python 书籍

我们已经学习 urllib、re、BeautifulSoup 这三个库的用法。但只是停留在理论层面上,还需实践来检验学习成果。因此,本文主要讲解如何利用我们刚才的几个库去实战。

1 确定爬取目标

任何网站皆可爬取,就看你要不要爬取而已。本次选取的爬取目标是当当网,爬取内容是 以 Python 为关键字搜索出来的页面中所有书籍的信息。具体如下图所示:

本次爬取结果有三项:

  • 图书的封面图片
  • 图书的书名
  • 图书的链接页面

最后把这三项内容保存到 csv 文件中。

2 爬取过程

总所周知,每个站点的页面 DOM 树是不一样的。所以我们需要先对爬取页面进行分析,再确定自己要获取的内容,再定义程序爬取内容的规则。

2.1 确定 URL 地址

我们可以通过利用浏览器来确定URL 地址,为 urllib 发起请求提供入口地址。接下来,我们就一步步来确定请求地址。

搜索结果页面为 1 时,URL 地址如下:

搜索结果页面为 3 时,URL 地址如下:

索结果页面为 21 时,即最后一页,URL 地址如下:

从上面的图片中,我们发现 URL 地址的差异就在于 page_index 的值,所以 URL 地址最终为 http://search.dangdang.com/?key=python&act=input&show=big&page_index=。而 page_index 的值,我们可以通过循环依次在地址后面添加。因此, urllib 请求代码可以这样写:

2.2 确定爬取节点

有了 URL 地址,就能使用 urllib 获取到页面的 html 内容。到了这步,我们就需要找到爬取的节点的规则,以便于 BeautifulSoup 地解析。为了搞定这个问题,就要祭出大招 —— Chrome 浏览器的开发者功能(按下 F12 键就能启动)。我们按下 F12 键盘,依次对每本书进行元素检查(在页面使用鼠标右键,点击“检查”即可),具体结果如下:

从上图可以得知解析规则:每本书的节点是一个 a 标签,a 标签具有 title,href,子标签 img 的 src 三个属性,这三者分别对应书名、书的链接页面、书的封图。看到这里也需你不会小激动,感叹这不就是我们要感兴趣的内容吗?得到解析规则,编写BeautifulSoup 解析代码就有了思路,具体代码如下:

运行结果如下:

这证明刚才制定规则是正确爬取我们所需的内容。

2.3 保存爬取信息

我写爬虫程序有个习惯,就是每次都会爬取内容持久化到文件中。这样方便以后查看使用。如果爬取数据量比较大,我们可以用其做数据分析。我这里为了方便,就将数据保存到 csv 文件中。用 Python 将数据写到文件中,我们经常中文乱码问题所烦恼。如果单纯使用 csv 库,可能摆脱不了这烦恼。所以我们将 csv 和 codecs 结合一起使用。在写数据到 csv 文件的时候,我们可以通过指定文件编码。这样中文乱码问题就迎刃而解。具体代码如下:

看到这里,你可能会问为什么不把编码指定为 gb2312 呢,这样用 ecxel 打开就不会乱码了?原因是当书名全部为英文单词时,使用 gb2312 编码,writer.writerow()会出现编码错误的问题。

如果你要用 excel 打开 PythonBook.csv文件, 你则需多执行下面几步:

  1. 打开 Excel
  2. 执行“数据”->“自文本”
  3. 选择 CSV 文件,出现文本导入向导
  4. 选择“分隔符号”,下一步
  5. 勾选“逗号”,去掉“ Tab 键”,下一步,完成
  6. 在“导入数据”对话框里,直接点确定

3 爬取结果

最后,我们将上面代码整合起来即可。这里就不把代码贴出来了,具体阅读原文即可查看源代码。我就把爬取结果截下图:

4 写在最后

这次实战算是结束了,但是我们不能简单地满足,看下程序是否有优化的地方。我把该程序不足的地方写出来。

  • 该程序是单线程,没有使用多线程,执行效率不够高。
  • 没有应用面向对象编程思想,程序的可扩展性不高。
  • 没有使用随机 User-Agent 和 代理,容易被封 IP。

作者:猴哥Yuri 来源:http://www.jianshu.com/p/dd17437053e5


原文发布于微信公众号 - 马哥Linux运维(magedu-Linux)

原文发表时间:2017-12-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏macOS 开发学习

cocos2d-objc 3.0+ 游戏开发学习手册(一): 简介与安装

目前网络中关于cocos2d-iphone 方面的资料,大部分都是基于c++ 语言跨平台的cocos2d-x,偶尔搜到一些cocos2d方面的也由于版本比较早(...

12030
来自专栏zhisheng

Python爬虫入门二之爬虫基础了解

1.什么是爬虫 爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓...

35360
来自专栏安恒网络空间安全讲武堂

​writeup | 强网杯—Share your mind

0x01 分析题目 拿到题目后,首先先分析一下题目,发现有注册和登录,尝试登录成功后,发现如下几个页面 Overview // 显示当前自己所有发帖 Write...

36560
来自专栏极客猴

盘点一些网站的反爬虫机制

因为 Python 语法简介以及强大的第三方库,所以我们使用它来制作网络爬虫程序。网络爬虫的用途是进行数据采集,也就是将互联网中的数据采集过来。

2.6K30
来自专栏阿杜的世界

前端开发:工具和流程

在dailyReport项目中,我通过SpringBoot + Mongodb + Redis构建了后端RESTful接口,现在需要客户端展现了,但是我的web...

15020
来自专栏FreeBuf

利用QRLJacking工具获取Whatsapp帐号权限

这篇文章将会教你如何用 QRLJacking 去获取别人 Whatsapp 帐号的权限,这种攻击是交互式,需要受害者去扫描你搭建好的钓鱼网站里面的恶意二维码,或...

22020
来自专栏逢魔安全实验室

从CPU漏洞Meltdown&Spectre看侧信道攻击

0x00 前言 2018伊始,两个芯片级漏洞Meltdown(熔断)、Spectre(幽灵)漏洞震惊的安全界。受影响的CPU包括Intel、AMD和ARM,...

36450
来自专栏数据科学与人工智能

【Python环境】Python爬虫入门(2):爬虫基础了解

1.什么是爬虫 爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓...

28390
来自专栏.Net移动开发

4.6预告先导篇——你们关心的几个问题:关于页、文档、内网推送等

非常感谢大家对Smobiler的支持,从4.6版本的建议征集中,整理了几个大家关注得比较多的问题,在此单独列出答复。

14120
来自专栏云计算教程系列

为公益伸出援手,自建 NTP 服务器池

在本教程中,讲述如何设置了自己的时间服务器,并使其成为NTP池项目的成员,为社区服务,现在国内NTP服务器数量还是不够乐观,还是那句话,如果你有位于国内的、长期...

3.6K120

扫码关注云+社区

领取腾讯云代金券