简单爬虫教你理解BeautifulSoup库

文章来源：企鹅号 - 433的3号同学

BeautifulSoup是Python的一个库，最主要的功能就是从网页爬取我们需要的数据。BeautifulSoup将html解析为对象进行处理，全部页面转变为字典或者数组，相对于正则表达式的方式，可以大大简化处理过程。

建议安装BeautifulSoup 4版本利用pip进行安装:

pip install beautifulsoup4

下面给大家一个例子，让大家清楚这个库的使用方法。

写出代码的整体框架

整体思路：首先解析给定的url出html页面，使用BeautifulSoup库解析html页面找出需要的信息并将这些信息放到之前设置的列表中，最后加入表头连带刚放入的信息打印出来。

getHTMLText函数

使用Requests库解析出HTML页面。注意这里有一个小细节：r.raise_for_status()作用为当返回的状态码不是200时返回预先设定的‘出现异常’。这样当没有解析出HTML页面时返回的异常更可读。

fillList函数

由下面解析出来的HTML页面可以看出，我们要获取的的信息存在于tbody标签下的tr标签下的第一个、第二个和第四个td标签内。所以我们使用BeautifulSoup库的find函数找到tbody下所有子标签。然后判断是否为tr标签，判断为tr标签后找到td标签，然后将td标签里的信息放入输入的列表中。

printList函数

最后遍历放入的信息，将其打印出来。

整体代码

结果显示

发表于: 2018-04-032018-04-03 23:11:01
原文链接：http://kuaibao.qq.com/s/20180403G1XGSP00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

简单爬虫教你理解BeautifulSoup库

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐