精彩文章
文末免费领取2000G干货教程
今日分享:顶点小说网爬取及数据存储
创建爬虫项目
Win+R命令cmd,进入到准备存放该爬虫项目的文件夹,在该例中小编进入到F盘下的Scrapy文件夹,具体命令如下代码所示:
(左右滑动查看完整代码)
通过以上命令操作会在本地相应位置出现爬虫所需的几个文件,具体生成的文件不再截图展示,可参考文章
Scrapy爬虫框架、数据流及项目结构详解
最后部分讲解。
分析目标网站
输入图示URL,进入到顶点小说网首页界面
右键审查元素可得每部小说的六项信息放置在 标签下,具体如图所示:
上图定位到了单个页面的目标数据,接下来就是对所有页面进行循环获取,下拉页面,不难发现玄幻魔法下共280页小说数据,当点击不同页数时,URL会有所变化,变化量正是页数码,如图所示,这就为爬虫的下一步循环获取提供了方便。
代码演练
打开编辑器,在爬虫编写时一般只需编写图示的几个py文件
下面针对该爬虫需要来定制以上几个文件中的代码,在scrapy框架下部分代码是自动生成的,因此代码中已存在的无需再改动,重复的请自动忽略
dingdian.py文件
(左右滑动查看完整代码)
items.py文件
(左右滑动查看完整代码)
pipelines.py文件
(左右滑动查看完整代码)
settings.py文件
(左右滑动查看完整代码)
在该爬虫中未涉及到middlewares.py文件,因此无需设置相关内容
运行爬虫
部分下载数据展示
以下为数据库在展示数据时的两种不同显示方式
全网爬取说明
通过分析URL可以发现:选取不同的小说关键词,URL中的参数会发现变化,九种类型的小说分别对应数字1~9,具体可见下图说明,所以改变这个参数就可以获取全网小说的数据,而每一种小说数据的解析与上面的一样,小编就不再具体演示了。
代码已上传至QQ学习群,回复加群,搜索群号即可加入该群
免费分享干货部分截图
关注公众号即可一键领取
省去找资料的麻烦为您的进阶学习保驾护航
公众号QQ群
扫QQ群二维码进交流学习群
领取专属 10元无门槛券
私享最新 技术干货