前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python爬虫前奏

Python爬虫前奏

作者头像
村雨遥
发布2019-09-09 17:24:34
4270
发布2019-09-09 17:24:34
举报
文章被收录于专栏:JavaParkJavaPark

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

本文链接:https://blog.csdn.net/github_39655029/article/details/83900661

网络爬虫

  • 定义 通过模拟人请求网站的行为,然后能够自动请求网页并将数据抓取下来,再使用一定规则将其中我们所需要的有价值的数据提取出来存储,以便我们进行分析;
  • 分类
    • 通用爬虫 搜索引擎抓取系统的一个重要组成部分,主要将网页抓取下来,形成一个互联网的内容备份镜像;
    • 聚焦爬虫 面向特定需求的网络爬虫,与通用爬虫的区别在于它能够在对网页抓取的同时对有价值的内容进行筛选,以满足我们对数据的需求;

http&https

  • http HyperText Transfer Protocol,超文本传输协议,一种发布和接收HTML页面的方法,默认端口80;
  • https Hypertext Transfer Protocol Secure,http协议的加密版,在http下加入SSL层,默认端口443;

URL

  • 定义 Uniform Resource Locator,统一资源定位符;
  • 组成:scheme://host:port/path/?query-string=xxx#anchor,除开英文字母、数字和部分符号外,其他都是%+16进制码进行编码;
    • scheme:访问协议,常为http、https及ftp;
    • host:主机/域名;
    • port:端口号;
    • path:查找路径;
    • query-string:查询字符串;
    • anchor:锚点,用于前端的页面定位;

常见请求方式

  • get 只需要从服务器获取数据,而不会对服务器资源产生影响时所使用的方式;
  • post 向服务器发送数据如登陆操作、上传文件等,会对服务器资源产生影响时所采用的方式;

常见请求头参数

  • Cookie 由之前服务器通过Set-Cookies设置的一个HTTP协议;
  • Referer 表示浏览器之前访问的页面,可以认为是之前访问页面的链接将浏览器带到当前页面;
  • User-Agent 浏览器的身份表示字符串;

响应状态码

urllib库

Python中常用的一个网络请求库,可用于模拟浏览器的行为,向指定服务器发送请求,同时也可以向服务器请求数据,然后将服务器返回的数据保存,这是Python3中自带的一个库,直接可以使用,不需要再安装;

总结

本文总结了学习Python爬虫所需要的一些基础知识,通过学习,你将对爬虫的定义以及一些网络知识有所了解,为接下来进一步学习Python爬虫做好准备;

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2018年11月09日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 网络爬虫
  • http&https
  • URL
  • 常见请求方式
  • 常见请求头参数
  • 响应状态码
  • urllib库
  • 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档