首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

python爬虫:爬取笔趣小说网站首页所有的小说内容,并保存到本地

这几天在进行新的内容学习,并且在尝试使用据说是全宇宙唯一一款专门开发python的ide工具,叫做pycharm。

这个软件是全英文的,不过在网上有汉化的工具包,但是仔细想一想,这么牛皮的软件用汉化版的会不会有点low(就像中文软件你使用英文包一样)。所以,我还是决定自己来玩一玩这款软件。下图软件运行的截图(还正在爬小说中ing)

下面进入正题。这是我们今天要爬取的小说网站:小说排行榜_2017完结小说排行榜_笔趣阁

相信经常看小说的朋友应该对这些小说一点也陌生。那么,我们怎样才能将这些小说一次性下载下来呢?

我们先讲一下,主要思路:

1.爬取网站总榜,获取每本小说的url;

2通过每本小说的url,找到每本小说的所有章节的url;

3通过每本书每一章的url,获取到每一章的内容。

分析网页

很明显就能找到,每个榜单都在标签:

·····

05-081.武炼巅峰

之中

所以代码可以如下来写:

成功将所有小说的url均保存到了comments之中。

下一步就是获取每本小说的每一章,comments列表中的每一个url之后,返回出每一章的url

最后,爬取每一章中的内容:

最后将所有函数联合起来,使用循环,实现功能:

爬取部分结果:

爬取的小说:

还在爬取第一本ing····,本来很早之前就开始爬了,最后发现

让我们来看看内容:

码字不易,希望大家能点个赞

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180511G1JKCC00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券