作者|藤子
前面我们讲到过,使用浏览器浏览网页,你访问网站的服务器会将页面数据通过互联网传送给你的浏览器,那些数据是什么样子的呢?在网络中传输的数据是0或1的形式,数据传送到你的电脑,浏览器中的程序会将0或1的信息进行翻译成我们可以阅读的形式。
比如我最喜欢的一个设计师网站
站酷
https://www.zcool.com.cn/
今天浏览器访问的页面是这样的
鼠标右键,查看源代码
上图中的代码块就是网页的原始信息,网络爬虫就是要获取网页上面中的信息,然后对该信息进行处理。
下面开始正式讲解如何获取以上信息,python如下
1#fromurllib.requestimporturlopen
2#frombs4importBeautifulSoup
3#
4#url ="https://www.zcool.com.cn/"
5#html = urlopen(url)
6#bsObj = BeautifulSoup(html,"lxml")
7#print(bsObj)
代码注解
#1#2 导入库文件
#4 创建酷站地址链接,存入url变量
#5 访问网站,将网站返回的信息导入html
#6 利用BeautifulSoup(简称bs)模块将网站返回信息转换为bs对象
#7 输出bs对象
相关备注
urlopen 用来打开并读取一个从网络获取的远程对象。因为它是一个非常通用的库,它可以轻松读取 HTML 文件、 图像文件,或其他任何文件流。
第六行代码"lxml"为解析器名称,也可以替换为"html.parser"或"html5lib",这三个都是解析器。
只需要修改第4行代码的url地址链接,就可以用上面得代码模板获取任何网站的源码信息。
领取专属 10元无门槛券
私享最新 技术干货