前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >并发乱序执行

并发乱序执行

原创
作者头像
开源日记
修改2021-01-04 10:19:35
7850
修改2021-01-04 10:19:35
举报
文章被收录于专栏:JVMGCJVMGC

乱序包含:

  • CPU 乱序执行
  • 编译器乱序优化

CPU 乱序执行


在保证结果一致的情况下, 把原来有序的指令列表, 按照指令依赖关系和指令执行周期, 重新安排执行顺序.

代码语言:txt
复制
//代码书写顺序
int a=10;
int b=a;
int c=20;
int d=c;
//优化后的结果
int a=10;
int c=20;
int b=a;
int d=c;

乱序优化在一定程度上可以提高程序的运行速度, 在多核情况下, 由于 CPU 内部的高速缓存, 乱序执行对访问指令的影响可能导致对数据的影响不能及时的反映到主存上, 从而导致结果错误.

我们在一个核上执行写入数据的操作, 并在最后写一个标记来表示之前的数据已经准备好, 然后另外一个核上通过判断标志来确定数据是否准备好. 这种做法存在风险: 标志位先被写入, 但是之前的数据操作并未完成 (可能未计算完成, 也可能是数据没有从 CPU 缓存刷新到主存), 最终导致了另外一个核使用了错误的数据.

处理器的分支预测单元有可能直接把两条分支指令预取过来并发执行, 等到分支判断的结果出来后, 再丢弃掉错误的数据.

代码语言:txt
复制
a=b+c
if(a>0){
   p=x+y
}else{
   p=x-y;
}

代码的本意是先计算a的结果, 后面才能继续运算. 实际上 CPU 直接把三个运算同时计算, 最后直接挑选正确的p值.

编译器乱序优化


受到处理器预取单元的能力限制,处理器每次只能分析一小块指令的并发性,如果指令相隔比较远就无能为力了。但是从编译器的角度来看,编译器能够对很大一个范围的代码进行分析,能够从更大的范围内分辨出可以并发的指令,并将其尽量靠近排列让处理器更容预取和并发执行,充分利用处理器的乱序并发功能。所以现代的高性能编译器在目标码优化上都具备对指令进行乱序优化的能力。并且可以对访存的指令进行进一步的乱序,减少逻辑上不必要的访问主存,以及尽量提高 Cache 命中率和 CPU 的 LSU(load/store unit)的工作率。所以在打开编译器优化以后,看到生成的汇编码并不严格按照代码的逻辑顺序是正常的。比如:

代码语言:txt
复制
int *p, *q; 
......; 
*p = 1; 
*p = 2; 
*q = *p;

这样,编译器通常会优化掉前面一个对p 的写入(逻辑上冗余),仅对 p 写入 2。而对q 赋值的时候,编译器认为此时 q 的结果就应该是上次p 的值,会优化掉从 p 取数的过程,直接把在寄存器中保存的p 的值给 q:

代码语言:txt
复制
(假设r3=p,r4=q) 
li   r5, 2      // r5赋值2 
stw  r5, 0(r3)  // 把r5写到*p 
stw  r5, 0(r4)  // 把r5写到*q

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档