cache 淘汰算法：LIRS 算法

原创

钱坤

修改于 2017-08-23 13:01:30

8.3K3

导语

LIRS算法是非常优秀的cache淘汰算法，被用于mysql 5.1之后的版本，这篇文章主要来源于对LIRS的发表论文《LIRS: An Efficient Low Interreference Recency Set Replacement Policy to Improve Buffer Cache Performance》的翻译。

1.传统算法

LRU(Least Recently Used):算法起源可追溯到1965年（甚至更早），是最为经典的页面置换算法，算法思想为淘汰最长时间未被使用的页面。LRU最友好的数据模型为具有时间局部性的请求队列。但是由于未考虑频率因素，偶发性的、周期性的批量操作时效果较差，缓存污染严重。使用hashmap和双向链表实现，可以让时间复杂度降至O（1）。

LFU(Least Frequently Used),淘汰一定时期内被访问次数最少的页。

OPT（OPTimal replacement，最佳淘汰算法）：根据未来实际使用情况将未来的近期里不用的页替换出去。这种算法是用来评价期它替换算法好坏的标准。不可能实现。所选择的被淘汰页面将是以后永不使用的，或者是在最长时间内不再被访问的页面。

MRU（最近最频繁使用算法，Most Recently Used），最近最频繁使用算法和最近最少使用算法相反，它会首先丢弃最近最常使用的数据。

LRU-2，只有当数据的访问次数达到2次的时候，才将数据放入缓存。当需要淘汰数据时，LRU-2会淘汰第2次访问时间距当前时间最大的数据。可以拓展为LRU-K。

2Q（Two queues）：LRU2的改进，不同点在于2Q将LRU-2算法中的访问历史队列改为一个FIFO缓存队列（即包含FIFO队列和LRU队列）。可拓展为MQ算法（ Multi Queue）。

Clock算法（Not Recently Used, NRU）：简单的CLOCK算法是给每一帧关联一个附加位，称为使用位。当某一页首次装入主存时，该帧的使用位设置为1;当该页随后再被访问到时，它的使用位也被置为1。当需要替换一页时，系统扫描缓冲区，以查找使用位被置为0的一帧。每当遇到一个使用位为1的帧时，操作系统就将该位重新置为0；如果在这个过程开始时，缓冲区中所有帧的使用位均为0，则选择遇到的第一个帧替换；如果所有帧的使用位均为1,则指针在缓冲区中完整地循环一周，把所有使用位都置为0。

2.LIRS算法

2.1算法概述

LIRS是针对LRU做优化的算法，在很多文章中被给予很高的评价，并且已经被应用在mysql 5.1之后的版本中。

传统的LRU算法有如下的问题：

1）对冷数据突发性访问抵抗能力差，可能会因此淘汰掉热的文件。好的算法里：热文件不应该被冷文件淘汰掉。

2）对于大量数据的循环访问抵抗能力查，极端情况下可能会出现命中率0%。好的算法里：这种情况miss rate应该约等于buffer space shortage ratio。

3）不能按照数据的访问概率进行淘汰。好的算法：能够按照数据的访问概率进行淘汰，只有高概率访问的文件才能在cache中长时间存活。一个例子如下：

一个B树，每个leaf node指向一个block，有20000个block。每个leaf node有20B，每个block有2000B。Cache的每一个page有4000B。所以20000个leaf node需要用100个page进行存储，20000个block需要用10000个page进行存储。而实际上这个时候我们的cache只有101个page，这个时候的最佳缓存策略为：cache中仅缓存leaf node，因为leaf node page的访问概率为0.005，而文件的page访问概率0.00005。而LRU并不能做到这一点。

2.2 算法涉及的基本概念介绍

LIRS算法使用两个参数来衡量一个cache 块，分别是IRR(Inter-Reference Recency)和R（Recency），IRR为一个页面最近两次的访问间隔，当第一次被访问时IRR的值为无穷大（inf）。R为页面最近一次访问到当前时间内有多少页面曾经被访问过（LRU数值）。下面两张图为计算IRR和R值的方式和例子。