首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

实现《顶点小说网》全站爬取及MongoDB数据库存储

精彩文章

文末免费领取2000G干货教程

今日分享:顶点小说网爬取及数据存储

创建爬虫项目

Win+R命令cmd,进入到准备存放该爬虫项目的文件夹,在该例中小编进入到F盘下的Scrapy文件夹,具体命令如下代码所示:

(左右滑动查看完整代码)

通过以上命令操作会在本地相应位置出现爬虫所需的几个文件,具体生成的文件不再截图展示,可参考文章

Scrapy爬虫框架、数据流及项目结构详解

最后部分讲解。

分析目标网站

输入图示URL,进入到顶点小说网首页界面

右键审查元素可得每部小说的六项信息放置在 标签下,具体如图所示:

上图定位到了单个页面的目标数据,接下来就是对所有页面进行循环获取,下拉页面,不难发现玄幻魔法下共280页小说数据,当点击不同页数时,URL会有所变化,变化量正是页数码,如图所示,这就为爬虫的下一步循环获取提供了方便。

代码演练

打开编辑器,在爬虫编写时一般只需编写图示的几个py文件

下面针对该爬虫需要来定制以上几个文件中的代码,在scrapy框架下部分代码是自动生成的,因此代码中已存在的无需再改动,重复的请自动忽略

dingdian.py文件

(左右滑动查看完整代码)

items.py文件

(左右滑动查看完整代码)

pipelines.py文件

(左右滑动查看完整代码)

settings.py文件

(左右滑动查看完整代码)

在该爬虫中未涉及到middlewares.py文件,因此无需设置相关内容

运行爬虫

部分下载数据展示

以下为数据库在展示数据时的两种不同显示方式

全网爬取说明

通过分析URL可以发现:选取不同的小说关键词,URL中的参数会发现变化,九种类型的小说分别对应数字1~9,具体可见下图说明,所以改变这个参数就可以获取全网小说的数据,而每一种小说数据的解析与上面的一样,小编就不再具体演示了。

代码已上传至QQ学习群,回复加群,搜索群号即可加入该群

免费分享干货部分截图

关注公众号即可一键领取

省去找资料的麻烦为您的进阶学习保驾护航

公众号QQ群

扫QQ群二维码进交流学习群

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180710G1VFEB00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券