pip3 install beautifulsoup4
2.使用from bs4 impott beautifulsoup4
解析器 | 使用方法 | 优势 | 劣势 |
---|---|---|---|
bs4的HTML解析器 | BeautifulSoup(mk,'html.parser') | Python 的内置标准库执行速度适中文档容错能力强 | Python 2.7.3 or 3.2.2)前 的版本中文档容错能力差 |
lxml的HTML解析器 | BeautifulSoup(mk,'lxml') | 速度快文档容错能力强 | 需要安装C语言库 |
lxml的XML解析器 | BeautifulSoup(mk,'xml') | 速度快唯一支持XML的解析器 | 需要安装C语言库 |
html5lib解析器 | BeautifulSoup(mk,'html5lib') | 最好的容错性以浏览器的方式解析文档生成HTML5格式的文档 | 速度慢 |
条件 :
同时存在多个标签只取第一个
注意:如果是html的父标签就是他自己,soup本身也是种特殊的标签的他的父标签是空
注意:必须在同一个父节点下才有平行关系,平行遍历获得的对象不一定是标签,也可能是文本,如果上下没来就为空
解析后的页面
prettify():会把解析的网页加上\n的文本文档,能使它打印变得更加好看
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。