前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >爬虫基础知识点

爬虫基础知识点

作者头像
stormwen
发布2019-08-05 20:16:01
4050
发布2019-08-05 20:16:01
举报
文章被收录于专栏:公众号:googpy公众号:googpy

学习爬虫之前需要了解的基础知识,如HTTP、爬虫、代理的基本原理等内容,对爬虫没有任何了解的小伙伴建议好好看看我分享的内容。

  1. URI和URL

URI的全称是uniform Resource Identifer,即统一资源标志符;URL的全称为Universal Resource Locator,即统一资源定位符。

举例说明,https://github.com/favicon.ico是Github的网站图标连接,它是一个URL,也是一个URI。通过这样一个链接,我们便可以从互联网上找到资源,这其中包括了访问协议https、访问路径(/即根目录)和资源名称favicon.ico,这就是URL/URI。

URL是URI的子集,也就是说每个URL都是URI,但不是每个URI都是URL。那么,怎样的URI不是URL呢?URI还包括一个子类叫做URN,它的全称为Universal Resource Name,即统一资源名称。

URN只命名资源而不指定如何定位资源,比如urn:isbn:0451450523指定了一本书的ISBN,可以唯一标识这本书,但是没有指定到哪里定位这本书,这就是URN。

2.超文本

英文名称叫做hypertext,我们在浏览器里看到的网页就是超文本解析而成的,其网页源代码是一系列HTML代码,里面包含了一系列标签,比如img显示图片,p指定显示段落等。浏览器解析这些标签后,就形成了我们平常看到的网页,而网页的源码HTML就可以称作超文本。

3.HTTP和HTTPS

在淘宝首页https://www.taobao.com/中,URL的开头会有http或https,这就是访问资源需要的协议类型。有时,我们还看到ftp、sftp、smb开头的URL,它们都是协议类型。在爬虫中,我们抓取的页面通常就是http或https协议的,这里首先了解一下这两个协议的含义。

HTTP的全称是Hyper Text Transfer Protocol,中文名叫做超文本传输协议。HTTP协议是用于从网络传输超文本数据到本地浏览器的传送协议,它能保证高效而准确地传送超文本文档。

HTTPS的全称是Hyper Text Transfer Protocol over Secure Socket Layer,是以安全为目标的HTTP通道,简单讲是HTTP的安全版,即HTTP下加入SSL层,简称为HTTPS。HTTPS的安全基础是SSL,因此通过它传输的内容都是经过SSL加密的,它的主要作用可以分为两种。

(1)建立一个信息安全通道来保证数据传输的安全;

(2)确认网站的真实性,凡是使用了HTTPS的网站,都可以通过点击浏览器地址栏的锁头标志来查看网站认证之后的真实信息,也可以通过CA机构颁发的安全签章来查询。

现在越来越多的网站和App都已经向HTTPS方向发展,例如:

苹果公司强制所有ios App在2017年1月1日前全部改为使用HTTPS加密,否则App就无法在应用商店上架。

谷歌从2017年1月推出的Chrome56开始,对未进行HTTPS加密的网址链接亮出风险提示,即在地址栏的显著位置提醒用户“此网页不安全”。

腾讯微信小程序的官方需求文档要求后台使用HTTPS请求进行网络通信,不满足条件的域名和协议无法请求。

4.HTTP请求过程

我们在浏览器中输入一个URL,回车之后便会在浏览器中观察到页面的内容。实际上,这个过程是浏览器所在的服务器发送了一个请求,网站服务器接收到这个请求之后进行处理和解析,然后返回对应的响应,接着传回给浏览器。响应里包含了页面的源代码等内容,浏览器在对其进行解析,便将网页呈现了出来,模型如图所示。

今天分享的内容,看起来会比较枯燥,但是对以后开始爬虫大有裨益,希望小伙伴们用心体会一下。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-01-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 googpy 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
SSL 证书
腾讯云 SSL 证书(SSL Certificates)为您提供 SSL 证书的申请、管理、部署等服务,为您提供一站式 HTTPS 解决方案。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档