首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

小说党们有福了,现在python教你如何爬取喜欢的小说!

是不是还在为喜欢小说不能看而遗憾.作为爱小说之一,我也和你们一样经常烦恼,为什么我的小说不能在一个地方看完,为什么不能看接下来的剧情,呜呜呜!

现在不用遗憾了,python让你一次看个够!

首先是引入库

然后将网址赋值

接下来尝试爬取该页的小说内容

find方法也可以和正则表达式搭配使用,并且多用于图片,视频等资源的爬取

由于本次爬取内容全在一个class属性值为read-content的盒子中,所以采用了find方法,如果该网页中,文字被放在多个盒子里,则应采用findAll方法,并且返回值为一个集合,需要用循环遍历输出。

将代码整合运行,发现可以实现文章的爬取,但是现在的问题是,爬取了该小说的一章,那么,往后的几章该如何爬取呢?

由前面步骤可以得出,只要得知下一章的网址,即可进行爬取。首先,将打印文字的部分封装为函数,那么,每次取得新的地址,即可打印出对应文本

现在的问题是如何爬取下一章的网址,观察网页结构可得知,下一章的按钮实质是一个id为j_chapterNext的a标签,那么,可由这个标签获得下一章的网址

重新包装函数,整理得:

将文本写入text文件中

哈哈哈!再也不会为看小说烦恼了!

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180117A0VN0W00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券