专栏首页python入门学习教程python3 爬虫工作原理
原创

python3 爬虫工作原理

什么是python爬虫?

网络爬虫我们一般简称为爬虫或者蜘蛛,它是一个自动抓取网络信息的程序或代码脚本。 如果我们把互联网看成一张巨大的蜘蛛网,上面链接着各种各样的网页数据,爬虫就像蜘蛛一样顺着网线去抓取我们想要的信息。

python爬虫的工作原理

我们一般的上网行为可以简单的归纳为:打开浏览器 → 输入网址 → 服务器收到请求 → 返回数据给浏览器 → 浏览器对数据进行解析,展示给浏览者

上网行为

而爬虫爬取数据的行为也与之非常类似,并且具有处理数据和保存数据的功能:

爬虫原理示意图

爬虫获取的数据的工作原理步骤可以分为:

  1. 获取数据,我们将需要爬取的网页提供给爬虫,爬虫就会向服务器发起获取数据的请求(request);
  2. 处理数据,爬虫对获取的数据进行处理以后,就得到了我们需要的部分;
  3. 储存数据,爬虫将处理后的数据保存起来,以便后续的分析、使用。

下一课我们将学习第一个python爬虫库:requests,请点此看下文

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • python入门学习路线及教程(python工程狮)

    python鱼霸霸
  • 如何用Python操作Excel完成自动办公(一)

    最近工作真是超级忙,已经断更1个多月的样子了,上次我们已经写到了利用爬虫批量点赞。

    python鱼霸霸
  • python3 爬虫学习:爬取豆瓣读书Top250(一)

    我们先选取一个待会准备爬取的网站,咱们选个较好爬的网页,豆瓣读书Top250的页面:https://book.douban.com/top250

    python鱼霸霸
  • 我的爬虫技术经历

    1. 前言 爬虫,这个词很多朋友第一次听到,第一感觉应该是各种小虫子,应该不会和某种计算机技术联系在一起。我第一次听到这个词,就是这样一个感觉。但是当这个这个词...

    程序员宝库
  • 常见的反爬虫技术有哪些?如何防止别人爬自己的网站?

    爬虫与反爬虫是互联网开发工程师之间的斗智斗勇。作为网站开发者既要掌握爬虫的技术,还要更进一步去了解如何实现反爬虫。

    用户2781897
  • Python爬虫之爬虫概述

    网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟客户端(主要指浏览器)发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。

    海仔
  • 【程序源代码】python爬虫

    多种电商商品数据爬虫,整理收集爬虫练习。每个项目都是成员写的。通过实战项目练习解决一般爬虫中遇到的问题。通过每个项目的 readme,了解爬取过程分析。对于精通...

    程序源代码
  • 推荐一条高效的Python爬虫学习路径!

    如果你仔细观察,就不难发现,懂爬虫、学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面,像 Python这样的编程语言提供越来越多的优秀工具,...

    python学习教程
  • Python爬虫与反爬虫左右互搏(带视频)

    爬虫与反爬虫是两类互斥的应用,它们争斗了多年。就像病毒程序与反病毒程序,永远是先有病毒程序,再有反病毒程序一样,爬虫程序总是先诞生,然后网站服务商就会想尽办法不...

    蒙娜丽宁
  • 找python爬虫小项目?github给你准备好了!

    即使我们都是程序员,但我们也并非都会修电脑,都会做酷炫的ppt,都会优化系统卡顿。其实程序员也是分行业、分专业的,就像医生也分内外科、呼吸科、神经科神的。

    efonfighting

扫码关注云+社区

领取腾讯云代金券