实现《顶点小说网》全站爬取及MongoDB数据库存储

文章来源：企鹅号 - 数据挖掘及分析

精彩文章

文末免费领取2000G干货教程

今日分享：顶点小说网爬取及数据存储

创建爬虫项目

Win+R命令cmd，进入到准备存放该爬虫项目的文件夹，在该例中小编进入到F盘下的Scrapy文件夹，具体命令如下代码所示：

（左右滑动查看完整代码）

通过以上命令操作会在本地相应位置出现爬虫所需的几个文件，具体生成的文件不再截图展示，可参考文章

Scrapy爬虫框架、数据流及项目结构详解

最后部分讲解。

分析目标网站

输入图示URL，进入到顶点小说网首页界面

右键审查元素可得每部小说的六项信息放置在标签下，具体如图所示：

上图定位到了单个页面的目标数据，接下来就是对所有页面进行循环获取，下拉页面，不难发现玄幻魔法下共280页小说数据，当点击不同页数时，URL会有所变化，变化量正是页数码，如图所示，这就为爬虫的下一步循环获取提供了方便。

代码演练

打开编辑器，在爬虫编写时一般只需编写图示的几个py文件

下面针对该爬虫需要来定制以上几个文件中的代码，在scrapy框架下部分代码是自动生成的，因此代码中已存在的无需再改动，重复的请自动忽略

dingdian.py文件

（左右滑动查看完整代码）

items.py文件

（左右滑动查看完整代码）

pipelines.py文件

（左右滑动查看完整代码）

settings.py文件

（左右滑动查看完整代码）

在该爬虫中未涉及到middlewares.py文件，因此无需设置相关内容

运行爬虫

部分下载数据展示

以下为数据库在展示数据时的两种不同显示方式

全网爬取说明

通过分析URL可以发现：选取不同的小说关键词，URL中的参数会发现变化，九种类型的小说分别对应数字1~9，具体可见下图说明，所以改变这个参数就可以获取全网小说的数据，而每一种小说数据的解析与上面的一样，小编就不再具体演示了。

代码已上传至QQ学习群，回复加群，搜索群号即可加入该群

免费分享干货部分截图

关注公众号即可一键领取

省去找资料的麻烦为您的进阶学习保驾护航

公众号QQ群

扫QQ群二维码进交流学习群

相关快讯