:2018-03-02 00:10
----
什么是beautifulsoup:
是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式...但是如果被解析文档不是标准格式,那么不同的解析器返回结果可能不同.下面例子中,使用lxml解析错误格式的文档,结果</p 标签被直接忽略掉了:
BeautifulSoup("<a </p ", "lxml...使用pyhton内置库解析结果如下:
BeautifulSoup("<a </p ", "html.parser") # <a </a
与lxml [7] 库类似的,Python内置库忽略掉了...不同的解析器可能影响代码执行结果,如果在分发给别人的代码中使用了 BeautifulSoup ,那么最好注明使用了哪种解析器,以减少不必要的麻烦.
3.操作【约定soup是beautifulsoup...(html, 'lxml')
c=soup.prettify()#上述html字符串中末尾缺少</span 和 </body
print(c)
如果想要获得更详细的介绍,可以参考官方文档,令人高兴的是