from bs4 import beautifulsoup
2.选择解析器解析指定内容:
soup=beautifulsoup(解析内容,解析器)
常用解析器:html.parser,lxml,xml...,html5lib
有时候需要安装安装解析器:比如pip3 install lxml
BeautifulSoup默认支持Python的标准HTML解析库,但是它也支持一些第三方的解析库:
?...</body </html
因为空标签<b / 不符合HTML标准,所以解析器把它解析成<b </b
同样的文档使用XML解析如下(解析XML需要安装lxml库).注意,空标签<b / 依然被保留...# <a <b/ </a
HTML解析器之间也有区别,如果被解析的HTML文档是标准格式,那么解析器之间没有任何差别,只是解析速度不同,结果都会返回正确的文档树....因为文档片段“<a </p ”是错误格式,所以以上解析方式都能算作”正确”,html5lib库使用的是HTML5的部分标准,所以最接近”正确”.不过所有解析器的结构都能够被认为是”正常”的.