HTML标签的小说内容.接下来的目标就是讲小说的内容提取出来,过滤掉这些没用的HTML标签.
(3)Beautiful Soup
提取我们真正需要的内容有很多方法,例如用正则表达式,Xpath,Beautiful...是否成功的方法:
from bs4 import BeautifulSoup
观察可以看到,div\标签中存放了小说的正文内容,所以现在的目标就是把div中的内容提取出来....方法,获取html信息中所有class属性为showtxt的div标签
11 ##find_all的第一个参数是获取的标签名,第二个参数class_是标签属性
12 ##class...通过审查元素,我们可以看到,目标小说的所有章节标题都存在于标签下....具体章节又分别存在于子标签中的标签中. html中,标签用来存放超链接,链接地址存在于属性href中.
?