Python网络爬虫与信息提取Week 2整理（1）

文章来源：企鹅号 - 小奥的学习笔记

2.1BeautifulSoup库入门

1.使用BeautifulSoup的方式

第一个参数是一个html格式的信息。

2. BeautifulSoup的基本元素

BS库是解析、遍历、维护“标签树”的功能库。例如：

表1.1 Beautiful Soup库解析器

表1.2 Beautiful Soup类的基本元素

当html网页中存在多个相同标签时，只能返回第一个。例如输入：

因为该页面有多个a链接，所以只返回第一个，即

Basic Python

当我们输入

我们可以获取到a的父亲的名字，也即

‘p’

当我们输入

得到p标签的父亲是

‘body’

当我们来获取a标签的属性的时候，我们输入

得到的结果是

{'href': 'http://www.icourse163.org/course/BIT-268001', 'class': ['py1'], 'id': 'link1'}

这是用一个字典的方式得到的反馈。

3.基于bs4库的HTML内容遍历方法

标签树的遍历方式主要有：上行遍历、下行遍历和平行遍历。

（1）下行遍历

表1.3 标签树的下行遍历

表1.4 标签树的平行遍历

注意：所有平行遍历发生在同一个父节点下的各节点之间。

表1.5 标签树的上行遍历

4.基于bs4的HTML格式化和编码

利用prettify()。例如，我们输入

print(soup.prettify())

打印出来的网页代码就比较明了。

bs4库将所有网页等内容转换成了UTF-8码。

发表于: 2018-07-062018-07-06 10:23:34
原文链接：https://kuaibao.qq.com/s/20180706G0H7BB00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

Python网络爬虫与信息提取Week 2整理（1）

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐