首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python网络爬虫与信息提取Week 2整理(1)

2.1BeautifulSoup库入门

1.使用BeautifulSoup的方式

第一个参数是一个html格式的信息。

2. BeautifulSoup的基本元素

BS库是解析、遍历、维护“标签树”的功能库。例如:

表1.1 Beautiful Soup库解析器

表1.2 Beautiful Soup类的基本元素

当html网页中存在多个相同标签时,只能返回第一个。例如输入:

因为该页面有多个a链接,所以只返回第一个,即

Basic Python

当我们输入

我们可以获取到a的父亲的名字,也即

‘p’

当我们输入

得到p标签的父亲是

‘body’

当我们来获取a标签的属性的时候,我们输入

得到的结果是

{'href': 'http://www.icourse163.org/course/BIT-268001', 'class': ['py1'], 'id': 'link1'}

这是用一个字典的方式得到的反馈。

3.基于bs4库的HTML内容遍历方法

标签树的遍历方式主要有:上行遍历、下行遍历和平行遍历。

(1)下行遍历

表1.3 标签树的下行遍历

表1.4 标签树的平行遍历

注意:所有平行遍历发生在同一个父节点下的各节点之间。

表1.5 标签树的上行遍历

4.基于bs4的HTML格式化和编码

利用prettify()。例如,我们输入

print(soup.prettify())

打印出来的网页代码就比较明了。

bs4库将所有网页等内容转换成了UTF-8码

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180706G0H7BB00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券