BeautifulSoup网络数据信息采集（一）

文章来源：企鹅号 - 一个被计算机耽误的设计师

作者|藤子

前面我们讲到过，使用浏览器浏览网页，你访问网站的服务器会将页面数据通过互联网传送给你的浏览器，那些数据是什么样子的呢？在网络中传输的数据是0或1的形式，数据传送到你的电脑，浏览器中的程序会将0或1的信息进行翻译成我们可以阅读的形式。

比如我最喜欢的一个设计师网站

站酷

https://www.zcool.com.cn/

今天浏览器访问的页面是这样的

鼠标右键，查看源代码

上图中的代码块就是网页的原始信息，网络爬虫就是要获取网页上面中的信息，然后对该信息进行处理。

下面开始正式讲解如何获取以上信息，python如下

1#fromurllib.requestimporturlopen

2#frombs4importBeautifulSoup

4#url ="https://www.zcool.com.cn/"

5#html = urlopen(url)

6#bsObj = BeautifulSoup(html,"lxml")

7#print(bsObj)

代码注解

#1#2 导入库文件

#4 创建酷站地址链接，存入url变量

#5 访问网站，将网站返回的信息导入html

#6 利用BeautifulSoup（简称bs）模块将网站返回信息转换为bs对象

#7 输出bs对象

相关备注

urlopen 用来打开并读取一个从网络获取的远程对象。因为它是一个非常通用的库，它可以轻松读取 HTML 文件、图像文件，或其他任何文件流。

第六行代码"lxml"为解析器名称，也可以替换为"html.parser"或"html5lib"，这三个都是解析器。

只需要修改第4行代码的url地址链接，就可以用上面得代码模板获取任何网站的源码信息。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货