专栏首页公众号:googpy爬虫基础知识点

爬虫基础知识点

学习爬虫之前需要了解的基础知识,如HTTP、爬虫、代理的基本原理等内容,对爬虫没有任何了解的小伙伴建议好好看看我分享的内容。

  1. URI和URL

URI的全称是uniform Resource Identifer,即统一资源标志符;URL的全称为Universal Resource Locator,即统一资源定位符。

举例说明,https://github.com/favicon.ico是Github的网站图标连接,它是一个URL,也是一个URI。通过这样一个链接,我们便可以从互联网上找到资源,这其中包括了访问协议https、访问路径(/即根目录)和资源名称favicon.ico,这就是URL/URI。

URL是URI的子集,也就是说每个URL都是URI,但不是每个URI都是URL。那么,怎样的URI不是URL呢?URI还包括一个子类叫做URN,它的全称为Universal Resource Name,即统一资源名称。

URN只命名资源而不指定如何定位资源,比如urn:isbn:0451450523指定了一本书的ISBN,可以唯一标识这本书,但是没有指定到哪里定位这本书,这就是URN。

2.超文本

英文名称叫做hypertext,我们在浏览器里看到的网页就是超文本解析而成的,其网页源代码是一系列HTML代码,里面包含了一系列标签,比如img显示图片,p指定显示段落等。浏览器解析这些标签后,就形成了我们平常看到的网页,而网页的源码HTML就可以称作超文本。

3.HTTP和HTTPS

在淘宝首页https://www.taobao.com/中,URL的开头会有http或https,这就是访问资源需要的协议类型。有时,我们还看到ftp、sftp、smb开头的URL,它们都是协议类型。在爬虫中,我们抓取的页面通常就是http或https协议的,这里首先了解一下这两个协议的含义。

HTTP的全称是Hyper Text Transfer Protocol,中文名叫做超文本传输协议。HTTP协议是用于从网络传输超文本数据到本地浏览器的传送协议,它能保证高效而准确地传送超文本文档。

HTTPS的全称是Hyper Text Transfer Protocol over Secure Socket Layer,是以安全为目标的HTTP通道,简单讲是HTTP的安全版,即HTTP下加入SSL层,简称为HTTPS。HTTPS的安全基础是SSL,因此通过它传输的内容都是经过SSL加密的,它的主要作用可以分为两种。

(1)建立一个信息安全通道来保证数据传输的安全;

(2)确认网站的真实性,凡是使用了HTTPS的网站,都可以通过点击浏览器地址栏的锁头标志来查看网站认证之后的真实信息,也可以通过CA机构颁发的安全签章来查询。

现在越来越多的网站和App都已经向HTTPS方向发展,例如:

苹果公司强制所有ios App在2017年1月1日前全部改为使用HTTPS加密,否则App就无法在应用商店上架。

谷歌从2017年1月推出的Chrome56开始,对未进行HTTPS加密的网址链接亮出风险提示,即在地址栏的显著位置提醒用户“此网页不安全”。

腾讯微信小程序的官方需求文档要求后台使用HTTPS请求进行网络通信,不满足条件的域名和协议无法请求。

4.HTTP请求过程

我们在浏览器中输入一个URL,回车之后便会在浏览器中观察到页面的内容。实际上,这个过程是浏览器所在的服务器发送了一个请求,网站服务器接收到这个请求之后进行处理和解析,然后返回对应的响应,接着传回给浏览器。响应里包含了页面的源代码等内容,浏览器在对其进行解析,便将网页呈现了出来,模型如图所示。

今天分享的内容,看起来会比较枯燥,但是对以后开始爬虫大有裨益,希望小伙伴们用心体会一下。

本文分享自微信公众号 - googpy(googpy)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-01-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 网站漏洞检测工具对discuzX3.2 X3.4网站漏洞修复

    2018年12月9日,国内某安全组织,对discuz X3.2 X3.4版本的漏洞进行了公开,这次漏洞影响范围较大,具体漏洞是discuz 的用户前段SQL注入...

    网站安全专家
  • PrestaShop 网站漏洞修复如何修复

    PrestaShop网站的漏洞越来越多,该网站系统是很多外贸网站在使用的一个开源系统,从之前的1.0初始版本到现在的1.7版本,经历了多次的升级,系统使用的人也...

    网站安全专家
  • PHP工程师学Python数据类型

    继上篇文章比较了PHP与Python语法之后,这周又学习了Python数据类型,准备从通过这篇文章给自己进行一些总结,也给其他读者一些参考。

    汤青松
  • 爬爬更健康

    爬取淘宝商品的信息,数据主要用于分析市场趋势,从而制定一系列营销方案。实现功能如下:

    公众号---志学Python
  • Spring Security框架入门

    Spring Security是一个能够为基于Spring的企业应用系统提供声明式的安全访问控制解决方案的安全框架。它提供了一组可以在Spring应用上下文中配...

    一点博客
  • 网站被百度停止推广并提示网站存在安全风险,不宜推广的处理方案

    春节刚过完,上班的第一天,公司网站被百度停止推广了,百度推广提示:您的url被百度杀毒提示存在网址安全风险,故物料不宜推广;若有异议,请进入百度杀毒申诉通道申诉...

    网站安全专家
  • javascript跨域无需修改服务器端

    由于img标签可以跨域,因此在onload和onerror事件中可以请求跨域,只能get请求,无法访问服务器的响应文本,只能用于单向通信。

    战神伽罗
  • Webpack系列——Webpack + xxx配合使用

    在webpack中使用Babel通过使用babel-loader即可,babel中的配置可以通过options选项进行配置。 安装:

    用户1515472
  • 压力测试工具siege的用法

    Siege是linux下的一个web系统的压力测试工具,支持多链接,支持get和post请求,可以对web系统进行多并发下持续请求的压力测试。

    卡二条的技术圈子
  • 动手实现一个JSONP

    JSONP的原理就不细说了,就是利用script可以跨域的特点来实现跨域,首先我们考虑一个最简单的jsonp,就是简简单单创建script标签, 添加url的...

    用户1515472

扫码关注云+社区

领取腾讯云代金券