专栏首页村雨遥Python爬虫前奏

Python爬虫前奏

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

本文链接:https://blog.csdn.net/github_39655029/article/details/83900661

网络爬虫

  • 定义 通过模拟人请求网站的行为,然后能够自动请求网页并将数据抓取下来,再使用一定规则将其中我们所需要的有价值的数据提取出来存储,以便我们进行分析;
  • 分类
    • 通用爬虫 搜索引擎抓取系统的一个重要组成部分,主要将网页抓取下来,形成一个互联网的内容备份镜像;
    • 聚焦爬虫 面向特定需求的网络爬虫,与通用爬虫的区别在于它能够在对网页抓取的同时对有价值的内容进行筛选,以满足我们对数据的需求;

http&https

  • http HyperText Transfer Protocol,超文本传输协议,一种发布和接收HTML页面的方法,默认端口80;
  • https Hypertext Transfer Protocol Secure,http协议的加密版,在http下加入SSL层,默认端口443;

URL

  • 定义 Uniform Resource Locator,统一资源定位符;
  • 组成:scheme://host:port/path/?query-string=xxx#anchor,除开英文字母、数字和部分符号外,其他都是%+16进制码进行编码;
    • scheme:访问协议,常为http、https及ftp;
    • host:主机/域名;
    • port:端口号;
    • path:查找路径;
    • query-string:查询字符串;
    • anchor:锚点,用于前端的页面定位;

常见请求方式

  • get 只需要从服务器获取数据,而不会对服务器资源产生影响时所使用的方式;
  • post 向服务器发送数据如登陆操作、上传文件等,会对服务器资源产生影响时所采用的方式;

常见请求头参数

  • Cookie 由之前服务器通过Set-Cookies设置的一个HTTP协议;
  • Referer 表示浏览器之前访问的页面,可以认为是之前访问页面的链接将浏览器带到当前页面;
  • User-Agent 浏览器的身份表示字符串;

响应状态码

urllib库

Python中常用的一个网络请求库,可用于模拟浏览器的行为,向指定服务器发送请求,同时也可以向服务器请求数据,然后将服务器返回的数据保存,这是Python3中自带的一个库,直接可以使用,不需要再安装;

总结

本文总结了学习Python爬虫所需要的一些基础知识,通过学习,你将对爬虫的定义以及一些网络知识有所了解,为接下来进一步学习Python爬虫做好准备;

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 编辑器之神 --- Vim

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

    村雨遥
  • 开发者编辑器推荐

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

    村雨遥
  • 关于 Spring Ioc,看这一篇就够了!

    Ioc(Inversion of Control),即 控制反转,是 Spring 框架的核心内容,实际上指的是 对一个对象的控制权的反转,和 OOP 一样,属...

    村雨遥
  • python3爬虫之开篇

      折腾爬虫也有一段时间了,从一开始的懵懵懂懂,到现在的有一定基础,对于这一路的跌跌撞撞,个人觉得应该留下一些文字性的东西,毕竟好记性不如烂笔头,而且毕竟这是吃...

    py3study
  • Python 网络爬虫概述

    几乎每个网站都有一个名为robots.txt的文档,当然也有有些网站没有设定。对于没有设定robots.txt的网站可以通过网络爬虫获取没有口令加密的数据,也就...

    Python知识大全
  • 聊一聊数据获取和爬虫

    木东居士
  • 一篇了解爬虫技术方方面面

    传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬...

    小小科
  • 一篇了解爬虫技术方方面面

    原理 传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件...

    小小科
  • python爬虫了解第一篇

    py3study
  • 大规模爬虫流程总结

    爬虫是一个比较容易上手的技术,也许花5分钟看一篇文档就能爬取单个网页上的数据。但对于大规模爬虫,完全就是另一回事,并不是1*n这么简单,还会衍生出许多别的问题。...

    小莹莹

扫码关注云+社区

领取腾讯云代金券