Python 爬虫之网络小说下载

文章来源：企鹅号 - Python那些事

作者：Jack Cui来源：

http://cuijiahua.com/blog/2017/10/spider_tutorial_1.html

前一篇文章《最通俗的 Python3 网络爬虫入门》介绍了爬虫的入门知识，本篇文章来介绍Python网络爬虫实战，爬取网络小说。

实战背景

小说网站-笔趣看：

笔趣看是一个盗版小说网站，这里有很多起点中文网的小说，该网站小说的更新速度稍滞后于起点中文网正版小说的更新速度。并且该网站只支持在线浏览，不支持小说打包下载。因此，本次实战就是从该网站爬取并保存一本名为《一念永恒》的小说，该小说是耳根正在连载中的一部玄幻小说。PS：本实例仅为交流学习，支持耳根大大，请上起点中文网订阅。

小试牛刀

我们先看下《一念永恒》小说的第一章内容，URL：

http://www.biqukan.com/1_1094/5403177.html

我们先用已经学到的知识获取HTML信息试一试，编写代码如下：

运行代码，可以看到如下结果：

可以看到，我们很轻松地获取了HTML信息。但是，很显然，很多信息是我们不想看到的，我们只想获得如右侧所示的正文内容，我们不关心div、br这些html标签。如何把正文内容从这些众多的html标签中提取出来呢？这就是本次实战的主要内容。

Beautiful Soup

爬虫的第一步，获取整个网页的HTML信息，我们已经完成。接下来就是爬虫的第二步，解析HTML信息，提取我们感兴趣的内容。对于本小节的实战，我们感兴趣的内容就是文章的正文。提取的方法有很多，例如使用正则表达式、Xpath、Beautiful Soup等。对于初学者而言，最容易理解，并且使用简单的方法就是使用Beautiful Soup提取感兴趣内容。

Beautiful Soup的安装方法和requests一样，使用如下指令安装(也是二选一)：

pip install beautifulsoup4

easy_install beautifulsoup4

一个强大的第三方库，都会有一个详细的官方文档。我们很幸运，Beautiful Soup也是有中文的官方文档。URL：

http://beautifulsoup.readthedocs.io/zh_CN/latest/

同理，我会根据实战需求，讲解Beautiful Soup库的部分使用方法，更详细的内容，请查看官方文档。

现在，我们使用已经掌握的审查元素方法，查看一下我们的目标页面，你会看到如下内容：

不难发现，文章的所有内容都放在了一个名为div的“东西下面”，这个"东西"就是html标签。HTML标签是HTML语言中最基本的单位，HTML标签是HTML最重要的组成部分。不理解，没关系，我们再举个简单的例子：

一个女人的包包里，会有很多东西，她们会根据自己的习惯将自己的东西进行分类放好。镜子和口红这些会经常用到的东西，会归放到容易拿到的外侧口袋里。那些不经常用到，需要注意安全存放的证件会放到不容易拿到的里侧口袋里。

html标签就像一个个“口袋”，每个“口袋”都有自己的特定功能，负责存放不同的内容。显然，上述例子中的div标签下存放了我们关心的正文内容。这个div标签是这样的：

细心的朋友可能已经发现，除了div字样外，还有id和class。id和class就是div标签的属性，content和showtxt是属性值，一个属性对应一个属性值。这东西有什么用？它是用来区分不同的div标签的，因为div标签可以有很多，我们怎么加以区分不同的div标签呢？就是通过不同的属性值。

仔细观察目标网站一番，我们会发现这样一个事实：class属性为showtxt的div标签，独一份！这个标签里面存放的内容，是我们关心的正文部分。

知道这个信息，我们就可以使用Beautiful Soup提取我们想要的内容了，编写代码如下：

# -*- coding:UTF-8 -*-

frombs4importBeautifulSoup

importrequests

if__name__ =="__main__":

target ='http://www.biqukan.com/1_1094/5403177.html'

req = requests.get(url = target)

html = req.text

bf = BeautifulSoup(html)

texts = bf.find_all('div', class_ ='showtxt')

print(texts)

在解析html之前，我们需要创建一个Beautiful Soup对象。BeautifulSoup函数里的参数就是我们已经获得的html信息。然后我们使用方法，获得html信息中所有class属性为showtxt的div标签。方法的第一个参数是获取的标签名，第二个参数是标签的属性，为什么不是class，而带了一个下划线呢？因为python中class是关键字，为了防止冲突，这里使用表示标签的class属性，后面跟着的showtxt就是属性值了。看下我们要匹配的标签格式：

这样对应的看一下，是不是就懂了？可能有人会问了，为什么不是?这样其实也是可以的，属性是作为查询时候的约束条件，添加一个条件，我们就已经能够准确匹配到我们想要的标签了，所以我们就不必再添加id这个属性了。运行代码查看我们匹配的结果：

我们可以看到，我们已经顺利匹配到我们关心的正文内容，但是还有一些我们不想要的东西。比如div标签名，br标签，以及各种空格。怎么去除这些东西呢？我们继续编写代码：

find_all匹配的返回的结果是一个列表。提取匹配结果后，使用text属性，提取文本内容，滤除br标签。随后使用replace方法，剔除空格，替换为回车进行分段。在html中是用来表示空格的。就是去掉下图的八个空格符号，并用回车代替：

程序运行结果如下：

可以看到，我们很自然的匹配到了所有正文内容，并进行了分段。我们已经顺利获得了一个章节的内容，要想下载正本小说，我们就要获取每个章节的链接。我们先分析下小说目录：

URL：http://www.biqukan.com/1_1094/

通过审查元素，我们发现可以发现，这些章节都存放在了class属性为listmain的div标签下，选取部分html代码如下：

在分析之前，让我们先介绍一个概念：父节点、子节点、孙节点。和限定了标签的开始和结束的位置，他们是成对出现的，有开始位置，就有结束位置。我们可以看到，在标签包含标签，那这个标签就是标签的子节点，标签又包含标签和标签，那么标签和标签就是标签的孙节点。有点绕？那你记住这句话：谁包含谁，谁就是谁儿子！

他们之间的关系都是相对的。比如对于标签，它的子节点是标签，它的父节点是标签。这跟我们人是一样的，上有老下有小。

看到这里可能有人会问，这有好多标签和标签啊！不同的标签，它们是什么关系啊？显然，兄弟姐妹喽！我们称它们为兄弟结点。

好了，概念明确清楚，接下来，让我们分析一下问题。我们看到每个章节的名字存放在了标签里面。标签还有一个href属性。这里就不得不提一下标签的定义了，标签定义了一个超链接，用于从一张页面链接到另一张页面。标签最重要的属性是 href 属性，它指示链接的目标。

我们将之前获得的第一章节的URL和标签对比看一下：

http://www.biqukan.com/1_1094/5403177.html第一章他叫白小纯

不难发现，标签中href属性存放的属性值是章节URL的后半部分。其他章节也是如此！那这样，我们就可以根据标签的href属性值获得每个章节的链接和名称了。

总结一下：小说每章的链接放在了class属性为listmain的标签下的标签中。链接具体位置放在html->body->div->dl->dd->a的href属性中。先匹配class属性为listmain的标签，再匹配标签。编写代码如下：

还是使用find_all方法，运行结果如下：

很顺利，接下来再匹配每一个标签，并提取章节名和章节文章。如果我们使用Beautiful Soup匹配到了下面这个标签，如何提取它的href属性和标签里存放的章节名呢？第一章他叫白小纯

方法很简单，对Beautiful Soup返回的匹配结果a，使用a.get('href')方法就能获取href的属性值，使用a.string就能获取章节名，编写代码如下：

因为find_all返回的是一个列表，里边存放了很多的标签，所以使用for循环遍历每个标签并打印出来，运行结果如下。

最上面匹配的一千多章的内容是最新更新的12章节的链接。这12章内容会和下面的重复，所以我们要滤除，除此之外，还有那3个外传，我们也不想要。这些都简单地剔除就好。

整合代码

每个章节的链接、章节名、章节内容都有了。接下来就是整合代码，将获得内容写入文本文件存储就好了。编写代码如下：

很简单的程序，单进程跑，没有开进程池。下载速度略慢，喝杯茶休息休息吧。代码运行效果如下图所示：

（完）

看完本文有收获？请转发分享给更多人

关注「Python那些事」，做全栈开发工程师

发表于: 2018-06-252018-06-25 08:15:25
原文链接：https://kuaibao.qq.com/s/20180625B09IM200?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

Python 爬虫之网络小说下载

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐