首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

BeautifulSoup网络数据信息采集(一)

作者|藤子

前面我们讲到过,使用浏览器浏览网页,你访问网站的服务器会将页面数据通过互联网传送给你的浏览器,那些数据是什么样子的呢?在网络中传输的数据是0或1的形式,数据传送到你的电脑,浏览器中的程序会将0或1的信息进行翻译成我们可以阅读的形式。

比如我最喜欢的一个设计师网站

站酷

https://www.zcool.com.cn/

今天浏览器访问的页面是这样的

鼠标右键,查看源代码

上图中的代码块就是网页的原始信息,网络爬虫就是要获取网页上面中的信息,然后对该信息进行处理。

下面开始正式讲解如何获取以上信息,python如下

1#fromurllib.requestimporturlopen

2#frombs4importBeautifulSoup

3#

4#url ="https://www.zcool.com.cn/"

5#html = urlopen(url)

6#bsObj = BeautifulSoup(html,"lxml")

7#print(bsObj)

代码注解

#1#2 导入库文件

#4 创建酷站地址链接,存入url变量

#5 访问网站,将网站返回的信息导入html

#6 利用BeautifulSoup(简称bs)模块将网站返回信息转换为bs对象

#7 输出bs对象

相关备注

urlopen 用来打开并读取一个从网络获取的远程对象。因为它是一个非常通用的库,它可以轻松读取 HTML 文件、 图像文件,或其他任何文件流。

第六行代码"lxml"为解析器名称,也可以替换为"html.parser""html5lib",这三个都是解析器。

只需要修改第4行代码的url地址链接,就可以用上面得代码模板获取任何网站的源码信息。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180603G0JGCJ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券