L1是最接近CPU的, 它容量最小, 例如32K, 速度最快,每个核上都有一个L1 Cache(准确地说每个核上有两个L1 Cache, 一个存数据 L1d Cache, 一个存指令 L1i Cache...一次次地未命中,代表取数据消耗的时间越长.
缓存行(Cache line)
为了高效地存取缓存, 不是简单随意地将单条数据写入缓存的. 缓存是由缓存行组成的, 典型的一行是64字节....从上节我们可以知道在加载longs[i][j]时, longs[i][j+1]很可能也会被加载至cache中, 所以立即访问longs[i][j+1]将会命中L1 Cache, 而如果你访问longs[...i+1][j]情况就不一样了, 这时候很可能会产生 cache miss导致效率低下....一共164,625,965次L1 cache miss, 再看看慢的程序
?
这回产生了1,421,402,322次 L1-dcache-load-misses, 所以慢多了.