,过滤掉这些没用的HTML标签.
(3)Beautiful Soup
提取我们真正需要的内容有很多方法,例如用正则表达式,Xpath,Beautiful Soup等.这里使用Beautifu Soup....观察可以看到,div\标签中存放了小说的正文内容,所以现在的目标就是把div中的内容提取出来....从图片中可以看出,此时的内容中还有一些其他的HTML标签,比如
接下来就是要把这些不需要的字符去除,还有一些不需要的空格也删除.代码如下:
1 # -*- coding:utf-8 -*-...具体章节又分别存在于子标签中的标签中. html中,标签用来存放超链接,链接地址存在于属性href中.
?...接下来,就是匹配抓取到的每一个标签,并提取章节名和章节文章.例如,取第一章,标签内容如下:
第一章 他叫白小纯
对BeautifulSoup