专栏首页海仔技术驿站Python爬虫之爬虫概述

Python爬虫之爬虫概述

爬虫概述

知识点:
  • 了解 爬虫的概念
  • 了解 爬虫的作用
  • 了解 爬虫的分类
  • 掌握 爬虫的流程

1. 爬虫的概念

模拟浏览器,发送请求,获取响应

网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟客户端(主要指浏览器)发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。

  • 原则上,只要是客户端(浏览器)能做的事情,爬虫都能够做
  • 爬虫也只能获取客户端(浏览器)所展示出来的数据

知识点:了解 爬虫的概念

2. 爬虫的作用

爬虫在互联网世界中有很多的作用,比如:

  1. 数据采集
    1. 抓取微博评论(机器学习舆情监控)
    2. 抓取招聘网站的招聘信息(数据分析、挖掘)
    3. 新浪滚动新闻
    4. 百度新闻网站
  2. 软件测试
    1. 爬虫之自动化测试
    2. 虫师
  3. 12306抢票
  4. 网站上的投票
    1. 投票网
  5. 网络安全
    1. 短信轰炸
      1. 注册页面1
      2. 注册页面2
      3. 注册页面3
    2. web漏洞扫描

知识点:了解 爬虫的作用

3. 爬虫的分类

3.1 根据被爬取网站的数量不同,可以分为:

  • 通用爬虫,如 搜索引擎
  • 聚焦爬虫,如12306抢票,或专门抓取某一个(某一类)网站数据

3.2 根据是否以获取数据为目的,可以分为:

  • 功能性爬虫,给你喜欢的明星投票、点赞
  • 数据增量爬虫,比如招聘信息

3.3 根据url地址和对应的页面内容是否改变,数据增量爬虫可以分为:

  • 基于url地址变化、内容也随之变化的数据增量爬虫
  • url地址不变、内容变化的数据增量爬虫

知识点:了解 爬虫的分类

4. 爬虫的流程

爬虫的基本流程如图所示

  1. 获取一个url
  2. 向url发送请求,并获取响应(需要http协议)
  3. 如果从响应中提取url,则继续发送请求获取响应
  4. 如果从响应中提取数据,则将数据进行保存

知识点:掌握 爬虫的流程

向url发送请求,并获取响应(需要http协议) 3. 如果从响应中提取url,则继续发送请求获取响应 4. 如果从响应中提取数据,则将数据进行保存


知识点:掌握 爬虫的流程

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Python爬虫之常见的反爬手段和解决方法

    这里要切记,人力成本也是资源,而且比机器更重要。因为,根据摩尔定律,机器越来越便宜。而根据IT行业的发展趋势,程序员工资越来越贵。因此,通常服务器反爬就是让爬虫...

    海仔
  • Python爬虫之scrapy_redis原理分析并实现断点续爬以及分布式爬虫

    但是在settings.py中多了以下内容,这几行表示scrapy_redis中重新实现的了去重的类,以及调度器,并且使用RedisPipeline管道类

    海仔
  • Python爬虫之http协议复习

    我们在学习web知识的时候就已经学过了状态码的相关知识,我们知道这是服务器给我的相关反馈,我们在学习的时候就被教育说应该将真实情况反馈给客户端,但是在爬虫中,可...

    海仔
  • 网络爬虫法律条文或出台:你的程序合法吗?

    2018年10月20日,一篇《独家|估值175亿的旅游独角兽,是一座僵尸和水军构成的鬼城?》的文章一出世便走红网络。文中称百亿体量的马蜂窝,其中2100万条“真...

    华章科技
  • 大专读者被裁,但他却拒绝了42k的Offer?| 一名爬虫工程师自述

    这篇文章来自我的一个读者朋友,虽然是大专学历,但精通爬虫技术。一般大厂相对比较卡学历,经过之前我的内推,阿里进行了 4 轮面试(当然内推只是第一步,能经历 4 ...

    程序猿石头
  • 常见的反爬虫技术有哪些?如何防止别人爬自己的网站?

    爬虫与反爬虫是互联网开发工程师之间的斗智斗勇。作为网站开发者既要掌握爬虫的技术,还要更进一步去了解如何实现反爬虫。

    用户2781897
  • 【程序源代码】python爬虫

    多种电商商品数据爬虫,整理收集爬虫练习。每个项目都是成员写的。通过实战项目练习解决一般爬虫中遇到的问题。通过每个项目的 readme,了解爬取过程分析。对于精通...

    程序源代码
  • 那些优秀的网络爬虫工具介绍,最后亮了!| 码云周刊第 16 期

    技术干货 1、SpringMVC 执行流程及源码解析 2、使用 Vue2 和 Yii2 进行前后端分离开发 3、 SSM (十一) 基于 dubbo 的分布式架...

    码云Gitee
  • 探秘|那些你不知道的爬虫反爬虫套路

    相爱相杀的爬虫与反爬虫 ? 前言 爬虫与反爬虫,是一个很不阳光的行业。 这里说的不阳光,有两个含义。 第一是,这个行业是隐藏在地下的,一般很少被曝光出来。很...

    灯塔大数据
  • 推荐一条高效的Python爬虫学习路径!

    如果你仔细观察,就不难发现,懂爬虫、学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面,像 Python这样的编程语言提供越来越多的优秀工具,...

    python学习教程

扫码关注云+社区

领取腾讯云代金券