实战Scapy,爬取起点网全部小说!

作者丨totcw

目录:

概述

创建项目

item的编写

pipelines的编写

setting的编写

spider的编写

总结

处于兴趣爱好,最近正好在写一个爬虫类的项目,也算是重新拾了一把Scapy。今天这篇文章就先给大家带个路,接下来我会等项目MVP出来后和大家分享。

代码部分我都做了注释,如果有不清楚的欢迎留言。希望每篇Python文章都能带给大家一些帮助。

1. 概述

本篇的目的是用scrapy来爬取起点小说网的完本小说,使用的环境ubuntu,至于scrapy的安装就自行百度了.

2. 创建项目

scrapy startproject name 通过终端进入到你创建项目的目录下输入上面的命令就可以完成项目的创建.name是项目名字.

3. Item的编写

我这里定义的item中的title用来存书名,desc用来存书的内容.

4. pipelines的编写

在pipelines可以编写存储数据的形式,我这里就是使用txt形式的文件来存储每一本书

5. setting的编写

只要将下面代码中的tutorial替换成自己项目的名字就可以

6.spider的编写

7.总结

通过上面的代码虽然可以获取所有书的内容,但是起点是有vip限制的,也就是说必须用起点的vip帐号登录才能查看完本的小说,因此这有点遗憾,我没有起点小说网的会员.

推荐↓↓↓

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181201B15A1600?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券