文章/答案/技术大牛

发布

爬小说-谁的青春不迷茫

文章来源：企鹅号 - 柚子清酒

环境： Python3 + Macos。

开发工具：PyCharm。

内容：爬取136书屋谁的青春不迷茫这本书的全部内容

思路：先爬取某一章的内容，然后再爬取全部章节链接地址，然后抽取其中内容。

要爬取的链接地址如下：http://www.136book.com/shuidiqingchunbumimang/

主页截图如下

主页

首先分析一下这个网站：每当点击其中各个章节的时候，是通过控制网址后面／eqlrcjd，这样类似的一串英文的不同，来区分每一章节。

自序截图

我们接着在主页开启chrome浏览器开发者工具，进行页面审查，很轻松，经过一圈查看，发现小说的内容在Network下面的Doc模块下。

主页分析

每一章的链接地址都是有规则地存放在中。

主页每一章页面链接地址

经过分析，总章节爬取应该和每一章差不多，所以我们先来搞定每一章，然后再搞定全部章节。

我们只需要打开其中一章，然后进行分析，我们要爬取的内容全都包含在这个

里面。

某一章

代码如下：

运行后的截图：

第一次尝试

显然下载了第一章的内容，但是没有达到完全自动化下载到电脑里，也没有达到整本书的下载，我们接下来，进一步优化。

总章节内容：

所有的内容都放在一个所有的内容都放在一个

中。

这儿有两个一模一样的

。

第一个

包含着最近更新的章节，第二个

包含着全集内容。

请注意，我们要爬取的是第二个

中的内容。

总章节

代码如下：

运行后截图

总章节截图

爬取全部章节及其内容

将每个解析出来的链接循环代入到url中解析出来，并将其中的文本爬取出来，并且写到本地/Users/wangchao/Desktop/xs66.rtf中。

这是代码：

由于电脑原因，我只好用word打开

发表于: 2018-01-182018-01-18 06:00:59
原文链接：http://kuaibao.qq.com/s/20180118G01U9Q00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

爬小说-谁的青春不迷茫

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐