Python BeautifulSoup如何提取/查找

Python BeautifulSoup是一个用于解析HTML和XML文档的Python库。它提供了一种简单而灵活的方式来遍历文档树，搜索特定的标签或内容，并提取所需的信息。

使用BeautifulSoup提取或查找HTML文档中的内容，可以按照以下步骤进行：

导入BeautifulSoup库：from bs4 import BeautifulSoup
创建BeautifulSoup对象：soup = BeautifulSoup(html_doc, 'html.parser')这里的html_doc是HTML文档的字符串，html.parser是解析器的类型，可以使用Python内置的解析器。
根据标签名提取内容：soup.find('tag_name')这里的tag_name是要查找的标签名，find()方法返回第一个匹配的标签。
根据属性提取内容：soup.find('tag_name', attrs={'attr_name': 'attr_value'})这里的attr_name是要匹配的属性名，attr_value是属性值，attrs参数用于指定属性条件。
提取标签内的文本内容：tag.text这里的tag是通过find()方法或其他查找方法返回的标签对象，.text属性返回标签内的文本内容。
提取标签的属性值：tag['attr_name']这里的attr_name是要提取的属性名，通过索引方式获取属性值。
遍历文档树：for tag in soup.find_all('tag_name'): # 处理每个匹配的标签find_all()方法返回所有匹配的标签，可以使用循环遍历进行处理。