首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

爬小说-谁的青春不迷茫

环境: Python3 + Macos。

开发工具:PyCharm。

内容:爬取136书屋谁的青春不迷茫这本书的全部内容

思路:先爬取某一章的内容,然后再爬取全部章节链接地址,然后抽取其中内容。

要爬取的链接地址如下:http://www.136book.com/shuidiqingchunbumimang/

主页截图如下

主页

首先分析一下这个网站:每当点击其中各个章节的时候,是通过控制网址后面/eqlrcjd,这样类似的一串英文的不同,来区分每一章节。

自序截图

我们接着在主页开启chrome浏览器开发者工具,进行页面审查,很轻松,经过一圈查看,发现小说的内容在Network下面的Doc模块下。

主页分析

每一章的链接地址都是有规则地存放在中。

主页每一章页面链接地址

经过分析,总章节爬取应该和每一章差不多,所以我们先来搞定每一章,然后再搞定全部章节。

我们只需要打开其中一章,然后进行分析,我们要爬取的内容全都包含在这个

里面。

某一章

代码如下:

运行后的截图:

第一次尝试

显然下载了第一章的内容,但是没有达到完全自动化下载到电脑里,也没有达到整本书的下载,我们接下来,进一步优化。

总章节内容:

所有的内容都放在一个所有的内容都放在一个

中。

这儿有两个一模一样的

第一个

包含着最近更新的章节,第二个

包含着全集内容。

请注意,我们要爬取的是第二个

中的内容。

总章节

代码如下:

运行后截图

总章节截图

爬取全部章节及其内容

将每个解析出来的链接循环代入到url中解析出来,并将其中的文本爬取出来,并且写到本地/Users/wangchao/Desktop/xs66.rtf中。

这是代码:

由于电脑原因,我只好用word打开

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180118G01U9Q00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券