BeautifulSoup是Python的一个库,最主要的功能就是从网页爬取我们需要的数据。BeautifulSoup将html解析为对象进行处理,全部页面转变为字典或者数组,相对于正则表达式的方式,可以大大简化处理过程。
建议安装BeautifulSoup 4版本 利用pip进行安装:
pip install beautifulsoup4
下面给大家一个例子,让大家清楚这个库的使用方法。
写出代码的整体框架
整体思路:首先解析给定的url出html页面,使用BeautifulSoup库解析html页面找出需要的信息并将这些信息放到之前设置的列表中,最后加入表头连带刚放入的信息打印出来。
getHTMLText函数
使用Requests库解析出HTML页面。注意这里有一个小细节:r.raise_for_status()作用为当返回的状态码不是200时返回预先设定的‘出现异常’。这样当没有解析出HTML页面时返回的异常更可读。
fillList函数
由下面解析出来的HTML页面可以看出,我们要获取的的信息存在于tbody标签下的tr标签下的第一个、第二个和第四个td标签内。所以我们使用BeautifulSoup库的find函数找到tbody下所有子标签。然后判断是否为tr标签,判断为tr标签后找到td标签,然后将td标签里的信息放入输入的列表中。
printList函数
最后遍历放入的信息,将其打印出来。
整体代码
结果显示
领取专属 10元无门槛券
私享最新 技术干货