互联网应用的主要挑战就是在高并发情况下,大量的用户请求到达应用系统服务器,造成巨大的计算压力。互联网应用的核心解决思路就是采用分布式架构,提供更多的服务器,从而提供更多的计算的资源,应对高并发带来的计算压力以及资源的消耗。
就是将需要多次读取的数据暂存起来,这样在后面,应用程序需要多次读取的时候,就不必从数据源重复加载数据了,这样就可以降低数据的计算负载压力,提高数据的响应速度。
应用程序访问通读缓存获取数据的时候,如果通读缓存有应用程序需要的数据,那么就返回这个数据,如果没有,那么通读缓存就自己负责访问数据源,从数据源获取数据返回给应用程序,并且将这个数据缓存在自己的缓存中,这样,下次,应用程序需要数据的时候,就可以通过通读缓存直接获取数据了。
通读缓存在架构中的位置与作用如下图
应用程序访问旁路缓存获取数据的时候,如果旁路缓存中有应用程序需要的数据,那么就返回这个数据,如果没有,就返回空,应用程序需要自己从数据源读取数据,然后将这个数据写入到旁路缓存中,这样,下次应用程序需要数据的时候,就可以通过旁路缓存直接获取数据了。
互联网应用中主要使用的通读缓存是CDN和反向代理缓存。
CDN(Content Delivery Network)内容分发网络,上网的时候,APP或者浏览器想要连接到互联网的应用服务器,需要网络服务商,比如移动,电信这样的服务商为我们提供网络服务,建立网络连接才可以上网。
而这些服务商需要在全国范围内部署骨干网络,交换机机房才能完成网络连接服务,这些交换机机房可能距离用户非常近,用户在近距离获取自己想要的数据,既能提高响应速度,又能节省网络带宽和服务器资源。
部署在网络服务商机房中的缓存就是CDN,因为距离非常近,又被称作网络连接第一跳,目前很多网络应用大约80%以上的网络流量都是通过CDN返回的。
CDN只能缓存静态数据内容,比如说图片、CSS、JS、HTML等内容,而动态内容,比如说订单的信息,商品搜索结果等必须要应用服务器进行计算处理后才能获得,因此,互联网应用的静态内容和动态内容需要进行分离,静态内容和动态内容部署在不同的服务器集群上面,使用不同的二级域名,即所谓的动静分离,一方面便于运维管理,另一方面也便于CDN进行缓存,使CDN只缓存静态内容。
上网的时候,有时候需要通过代理上网,这个代理就是代理我们客户端上网设备,而反向代理则是代理服务器,是应用程序服务器的门户,所有的网络请求都需要通过反向代理磁能到达应用程序服务器,既然所有的请求都需要通过反向代理才能到达应用服务器,那么在这里加一个缓存,尽快将数据返回给用户,而不是发送给应用服务器,这就是反向代理缓存。
用户请求到达反向代理缓存服务器,反向代理检查本地是否有需要的数据,如果有就直接返回,如果没有,就请求应用服务器,得到需要的数据后缓存到本地,然后返回给用户。
旁路缓存:
CDN和反向代理缓存通常 会作为系统架构的一部分,很多时候对应程序都是透明的,而应用程序在代码中主要使用的是对象缓存,对象缓存是一种旁路缓存。
不管是通读缓存还是旁路缓存,缓存通常都是以key、value的方式进行存储在缓存中的,比如说,CDN和反向代理缓存,每个URL是一个key,那么url对应的文件内容就是value,而对象缓存中,key通常是一个ID,比如说用户的ID,商品ID等等,而value则是是一个对象,就是ID对应的用户对象或者商品对象。
对于key、value的数据格式,比较快速的存取方式就是使用hash表,因此通读缓存和旁读缓存存在实现上基本都是使用hash表。
程序中的使用的对象缓存,可以分为两种,一种是本地缓存,缓存和应用程序在同一个进程中启动,使用程序的堆空间存放缓存数据,本地缓存的响应速度快,但是缓存可以使用的内存空间比较小,但是对于大型互联网应用所需缓存的数据通常以T计算,这个时候就要使用远程分布式缓存进行处理了。
分布式缓存是指将一组服务器构成一个缓存集群,共同对外提供缓存服务,那么应用程序在每次读写缓存的时候,如果知道要访问缓存集群中的具体那台服务器,通过Memcached为例子,分布式缓存的框架:
Memcached将多台服务器构成一个缓存集群,缓存数据存储在每台服务器的内存中,事实上,使用缓存的应用程序服务器通常也是以集群方式部署的,每个程序需要依赖一个Memcached的客户端SDK,通过SDK的API访问Memcached的服务器。
应用程序调用API,API调用SDK的路由算法,路由算法根据缓存的key值,计算这个key应用访问那台Memcached服务器,计算得到服务器的IP地址和端口后,API再调用SDK的通信模块,将key、value值以及缓存操作命令发送给具体的某台Memcached服务器,由这台服务器完成缓存操作。
路由算法计算Memcached的服务器IP端口,比较简单的方法是通过Hash算法一样,利用Key的Hash值对服务器列表长度取模,根据余数可以确定服务器列表的下标,进而得到服务器的IP和端口。
小结:
不是所有的数据使用缓存都有意义,在互联网应用中,大多数数据访问都是有热点的,比如说微博的热点新闻,名人博客等,可以使用缓存进行处理。相反,如果缓存的数据没有热点,写入缓存的数据就很难被重复读取,使用缓存 就没有必要了。