python爬虫:定向爬取小说

01

注:本文利用requests库和BeautifulSoup库来爬取笔趣看中的小说‘诛仙’

02

首先,你要安装这两个python的第三方库;安装方法如下:

requests --> pip install requests

BeautifulSoup --> pip install bs4

现在开始进入正文:获取小说章节的链接(F12查看链接被存放在哪个标签当中)

上述当中,我们可以看到章节的链接和名字都存放在 标签中的 标签中;但是所有的 标签又只存放在一个 标签中,故我们要找的是 标签;然后利用迭代把 标签找出来。

代码如下:

当我们把网页中的链接解析出来后,就开始获取章节的正文了;

但是上述代码只是用来解析网页,不能用来爬取网页,下面贴出可以爬取一部小说的代码:

if __name__=="__main__":

main()

到此已经结束了,该爬取过程中重要的是掌握提取网页的方法!!!

03

使用requests库会返回Requests对象和Response对象

requests简单用法:

1、requests.get():#获取HTML网页的主要方法,对应于HTTP的GET

2、requests.post():#向HTML网页提交POST的请求方法

3、response.status_code:#HTTP请求返回的状态

4、response.text:#HTTP响应内容的字符串形式

5、r.apparent_encoding:#从内容中分析出的响应内容编码形式(分析内容得出编码形式)

01

世界上只有同类才可以做朋友,志不同道不合的人往往只能在某个猎奇的时间里做一阵子开心的同伴。被时间的洪水淘过,最终仍然堆在一起的,一定是同样材质的小石头。

04

整体思路:

1、访问网页,查看网页结构

2、提取章节链接并存到列表当中

3、从列表中取出链接并进行访问,然后获取出正文的内容

4、把正文存储到文件中

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180615G0V9EM00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券