劣势 条件 Python标准库 BeautifulSoup(markup, "html.parser") Python的内置标准库执行速度适中文档容错能力强 Python 2.7.3 or 3.2.2 )前的版本中文档容错能力差 直接使用 lxml HTML 解析器 BeautifulSoup(markup, "lxml") 速度快文档容错能力强 需要安装C语言库 pip install lxml lxml pip install html5lib Beautiful Soup 4 库对HTML内容进行遍历 HTML基本格式 事实上,HTML的基本格式是一种树形结构/标签树。 Beautiful Soup 4 库对HTML格式化输出 也就是让输出的HTML更加好看。 ,那么可以调用这个方法,获取到tag中包含的所有文本内容,包括子孙tag中的内容,并将结果作为Unicode字符串返回。