,html5lib
有时候需要安装安装解析器:比如pip3 install lxml
BeautifulSoup默认支持Python的标准HTML解析库,但是它也支持一些第三方的解析库:
?...XML解析如下(解析XML需要安装lxml库).注意,空标签<b / 依然被保留,并且文档前添加了XML头,而不是被包含在<html 标签内:
BeautifulSoup("<a <b / </a...但是如果被解析文档不是标准格式,那么不同的解析器返回结果可能不同.下面例子中,使用lxml解析错误格式的文档,结果</p 标签被直接忽略掉了:
BeautifulSoup("<a </p ", "lxml...</p 标签,与html5lib库不同的是标准库没有尝试创建符合标准的文档格式或将文档片段包含在<body 标签内,与lxml不同的是标准库甚至连<html 标签都没有尝试去添加....')
c=soup.prettify()#上述html字符串中末尾缺少</span 和 </body
print(c)
如果想要获得更详细的介绍,可以参考官方文档,令人高兴的是,有了比较简易的中文版