小说党们有福了,现在python教你如何爬取喜欢的小说!

是不是还在为喜欢小说不能看而遗憾.作为爱小说之一,我也和你们一样经常烦恼,为什么我的小说不能在一个地方看完,为什么不能看接下来的剧情,呜呜呜!

现在不用遗憾了,python让你一次看个够!

首先是引入库

然后将网址赋值

接下来尝试爬取该页的小说内容

find方法也可以和正则表达式搭配使用,并且多用于图片,视频等资源的爬取

由于本次爬取内容全在一个class属性值为read-content的盒子中,所以采用了find方法,如果该网页中,文字被放在多个盒子里,则应采用findAll方法,并且返回值为一个集合,需要用循环遍历输出。

将代码整合运行,发现可以实现文章的爬取,但是现在的问题是,爬取了该小说的一章,那么,往后的几章该如何爬取呢?

由前面步骤可以得出,只要得知下一章的网址,即可进行爬取。首先,将打印文字的部分封装为函数,那么,每次取得新的地址,即可打印出对应文本

现在的问题是如何爬取下一章的网址,观察网页结构可得知,下一章的按钮实质是一个id为j_chapterNext的a标签,那么,可由这个标签获得下一章的网址

重新包装函数,整理得:

将文本写入text文件中

哈哈哈!再也不会为看小说烦恼了!

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20180117A0VN0W00?refer=cp_1026

同媒体快讯

相关快讯

扫码关注云+社区