首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Java高级进阶多线程学习之路(五)cache line 缓存行

CPU从内存读取数据时实际是按块读取的,有什么好处呢?程序局部性原理,可以提高效率,充分发挥总线CPU针脚等一次性读取更多数据的能力。因为多数情况下CPU处理完一个数据后会处理该数据旁边的数据,所以按块去读取时,将一块数据一起读过来放入缓存,这样CPU处理完一个直接从缓存中取下一个,不需要再去内存取,极大的提高了局部性空间效率。这一块数据就被叫做缓存行。

  那一个缓存行能放多大的数据呢,目前业界都是用的64字节,这是一个经验值,缓存行越大,局部性空间效率越高,但读取时间慢;反之缓存行越小,局部性空间效率越低,但读取时间快,所以就取了一个折中值:64字节。

  大家看这个图,那多核CPU就会遇到这样一个问题,xy的数据在一个缓存行,第一个核将x改了,第二个核将y改了,他们再使用另一个值的时候,他们都不知道值变了,这就是缓存一致性的问题,怎么来解决这个问题呢? 看下面这个图

MESI cache一致性协议,这个是Intel的协议,不同的厂商有不同的协议,这里是给了缓存行四种状态:

Modified--被修改了

Exclusive--独占

Shared--共享

Invalid--无效的

这些协议是怎么生效的,如上图中x被改了之后他给自己标记成Modified,然后数据写回内存后通知其他核,给他们的这个缓存行状态改成Invalid,意思就是告诉他们我改过了,你们这个都无效了,如果需要用到最新数据,重新去内存中取。除了MESI 还有MSI,MOSI等缓存一致性协议。

下面再讲一些特别好玩的东西,看过源码的可能会留意到一些奇怪的写法,下面我写了两个例子大家看一下

简单讲一下写的是T有个成员变量x,然后一个数组里面有两个T对象,下面用两个线程去循环一亿次修改数组里的两个T的成员变量x的值,最后输出执行所用时间。第二个图只是在成员变量x前后加了7个成员变量,其他都没变。大家可以看到很明显的第二种写法所用时间短了很多,为什么会这样呢?这就是上面说的缓存行的问题,第一个图中大概率两个T是在一个缓存行中,一个缓存行64字节,一个long类型8字节,所以每次修改的时候他都要修改缓存行的状态并通知另一个核缓存行无效了,以及从内存中读取数据所以就慢了,反观第二个图中前后都有7个long类型的成员变量,所以两个T不会在同一个缓存行中,他就不需要去通知另一个核数据变了,时间就节省下来了。这其实就是用空间来换时间。那么很多人可能会说,谁会这样写代码,这不是在扯淡吗,还真不是,在jdk1.7中就开始用这种写法了,另外一个叫disrupoter的框架,号称是最快的单机mq,其中他的RingBuffer就是用了这种写法。由于有这种写法,所以jdk1.8里增加了一个注解@Contended 。

想让这个注解生效必须修改jvm运行参数-XX:-RestrictContended,否则会被jvm忽略。这就是缓存行对齐的概念。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20201010A0H50B00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券