前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >python3 爬虫工作原理

python3 爬虫工作原理

原创
作者头像
python鱼霸霸
修改2020-04-30 10:34:47
1.3K0
修改2020-04-30 10:34:47
举报
什么是python爬虫?

网络爬虫我们一般简称为爬虫或者蜘蛛,它是一个自动抓取网络信息的程序或代码脚本。 如果我们把互联网看成一张巨大的蜘蛛网,上面链接着各种各样的网页数据,爬虫就像蜘蛛一样顺着网线去抓取我们想要的信息。

python爬虫的工作原理

我们一般的上网行为可以简单的归纳为:打开浏览器 → 输入网址 → 服务器收到请求 → 返回数据给浏览器 → 浏览器对数据进行解析,展示给浏览者

上网行为
上网行为

而爬虫爬取数据的行为也与之非常类似,并且具有处理数据和保存数据的功能:

爬虫原理示意图
爬虫原理示意图

爬虫获取的数据的工作原理步骤可以分为:

  1. 获取数据,我们将需要爬取的网页提供给爬虫,爬虫就会向服务器发起获取数据的请求(request);
  2. 处理数据,爬虫对获取的数据进行处理以后,就得到了我们需要的部分;
  3. 储存数据,爬虫将处理后的数据保存起来,以便后续的分析、使用。

下一课我们将学习第一个python爬虫库:requests,请点此看下文

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 什么是python爬虫?
  • python爬虫的工作原理
相关产品与服务
云服务器
云服务器(Cloud Virtual Machine,CVM)提供安全可靠的弹性计算服务。 您可以实时扩展或缩减计算资源,适应变化的业务需求,并只需按实际使用的资源计费。使用 CVM 可以极大降低您的软硬件采购成本,简化 IT 运维工作。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档