python爬虫--解析网页的几种方法之BeautifulSoup
之前文章已经介绍了在python中用正则表达式抓取网页信息,本文将介绍用BeautifulSoup库抓取信息。
BeautifulSoup是Python的一个库,最主要的功能就是从网页爬取我们需要的数据。BeautifulSoup将html解析为对象进行处理,全部页面转变为字典或者数组,相对于正则表达式的方式,可以大大简化处理过程。
一、安装库
pipinstallbeautifulsoup4
BeautifulSoup默认支持Python的标准HTML解析库,但是它也支持一些第三方的解析库:
二、使用beautifulsoup4抓取新闻网站新闻标题。
代码如下:
方听木说∣一个有用的公众号
领取专属 10元无门槛券
私享最新 技术干货