2.1BeautifulSoup库入门
1.使用BeautifulSoup的方式
第一个参数是一个html格式的信息。
2. BeautifulSoup的基本元素
BS库是解析、遍历、维护“标签树”的功能库。例如:
表1.1 Beautiful Soup库解析器
表1.2 Beautiful Soup类的基本元素
当html网页中存在多个相同标签时,只能返回第一个。例如输入:
因为该页面有多个a链接,所以只返回第一个,即
Basic Python
当我们输入
我们可以获取到a的父亲的名字,也即
‘p’
当我们输入
得到p标签的父亲是
‘body’
当我们来获取a标签的属性的时候,我们输入
得到的结果是
{'href': 'http://www.icourse163.org/course/BIT-268001', 'class': ['py1'], 'id': 'link1'}
这是用一个字典的方式得到的反馈。
3.基于bs4库的HTML内容遍历方法
标签树的遍历方式主要有:上行遍历、下行遍历和平行遍历。
(1)下行遍历
表1.3 标签树的下行遍历
表1.4 标签树的平行遍历
注意:所有平行遍历发生在同一个父节点下的各节点之间。
表1.5 标签树的上行遍历
4.基于bs4的HTML格式化和编码
利用prettify()。例如,我们输入
print(soup.prettify())
打印出来的网页代码就比较明了。
bs4库将所有网页等内容转换成了UTF-8码。
领取专属 10元无门槛券
私享最新 技术干货