from bs4 import beautifulsoup
2.选择解析器解析指定内容:
soup=beautifulsoup(解析内容,解析器)
常用解析器:html.parser,lxml,xml...</body </html
因为空标签<b / 不符合HTML标准,所以解析器把它解析成<b </b
同样的文档使用XML解析如下(解析XML需要安装lxml库).注意,空标签<b / 依然被保留...但是如果被解析文档不是标准格式,那么不同的解析器返回结果可能不同.下面例子中,使用lxml解析错误格式的文档,结果</p 标签被直接忽略掉了:
BeautifulSoup("<a </p ", "lxml...</p 标签,与html5lib库不同的是标准库没有尝试创建符合标准的文档格式或将文档片段包含在<body 标签内,与lxml不同的是标准库甚至连<html 标签都没有尝试去添加....因为文档片段“<a </p ”是错误格式,所以以上解析方式都能算作”正确”,html5lib库使用的是HTML5的部分标准,所以最接近”正确”.不过所有解析器的结构都能够被认为是”正常”的.