首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

简单爬虫教你理解BeautifulSoup库

BeautifulSoup是Python的一个库,最主要的功能就是从网页爬取我们需要的数据。BeautifulSoup将html解析为对象进行处理,全部页面转变为字典或者数组,相对于正则表达式的方式,可以大大简化处理过程。

建议安装BeautifulSoup 4版本 利用pip进行安装:

pip install beautifulsoup4

下面给大家一个例子,让大家清楚这个库的使用方法。

写出代码的整体框架

整体思路:首先解析给定的url出html页面,使用BeautifulSoup库解析html页面找出需要的信息并将这些信息放到之前设置的列表中,最后加入表头连带刚放入的信息打印出来。

getHTMLText函数

使用Requests库解析出HTML页面。注意这里有一个小细节:r.raise_for_status()作用为当返回的状态码不是200时返回预先设定的‘出现异常’。这样当没有解析出HTML页面时返回的异常更可读。

fillList函数

由下面解析出来的HTML页面可以看出,我们要获取的的信息存在于tbody标签下的tr标签下的第一个、第二个和第四个td标签内。所以我们使用BeautifulSoup库的find函数找到tbody下所有子标签。然后判断是否为tr标签,判断为tr标签后找到td标签,然后将td标签里的信息放入输入的列表中。

printList函数

最后遍历放入的信息,将其打印出来。

整体代码

结果显示

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180403G1XGSP00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券