流水线、超流水线、超标量（superscalar）技术对比

zy010101

发布于 2020-08-17 17:03:02

6.8K0

文章被收录于专栏：程序员程序员

本文转载自：https://blog.csdn.net/qq_32092885/article/details/83349275

流水线

流水线技术是一种将每条指令分解为多步，并让各步操作重叠，从而实现几条指令并行处理的技术。程序中的指令仍是一条条顺序执行，但可以预先取若干条指令，并在当前指令尚未执行完时，提前启动后续指令的另一些操作步骤。这样显然可加速一段程序的运行过程。市场上推出的各种不同的1 6位/ 3 2位微处理器基本上都采用了流水线技术。如8 0 4 8 6和P e n t i u m均使用了6步流水线结构，流水线的6步为： ( 1 ) 取指令。C P U从高速缓存或内存中取一条指令。 ( 2 ) 指令译码。分析指令性质。 ( 3 ) 地址生成。很多指令要访问存储器中的操作数，操作数的地址也许在指令字中，也许要经过某些运算得到。 ( 4 ) 取操作数。当指令需要操作数时，就需再访问存储器，对操作数寻址并读出。 ( 5 ) 执行指令。由A L U执行指令规定的操作。 ( 6 ) 存储或"写回"结果。最后运算结果存放至某一内存单元或写回累加器A。在理想情况下，每步需要一个时钟周期。当流水线完全装满时，每个时钟周期平均有一条指令从流水线上执行完毕，输出结果，就像轿车从组装线上开出来一样。P e n t i u m、Pentium Pro和Pentium II处理器的超标量设计更是分别结合了两条和三条独立的指令流水线，每条流水线平均在一个时钟周期内执行一条指令，所以它们平均一个时钟周期分别可执行2条和3条指令。流水线技术是通过增加计算机硬件来实现的。例如要能预取指令，就需要增加取指令的硬件电路，并把取来的指令存放到指令队列缓存器中，使M P U能同时进行取指令和分析、执行指令的操作。因此，在1 6位/3 2位微处理器中一般含有两个算术逻辑单元A L U，一个主A L U用于执行指令，另一个A L U专用于地址生成，这样才可使地址计算与其它操作重叠进行。

超流水线

超级流水线以增加流水线级数的方法来缩短机器周期，相同的时间内超级流水线执行了更多的机器指令。采用简单指令以加快执行速度是所有流水线的共同特点，但超级流水线配置了多个功能部件和指令译码电路，采用多条流水线并行处理，还有多个寄存器端口和总线，可以同时执行多个操作，因此比普通流水线执行的更快，在一个机器周期内可以流出多条指令。

一般而言，CPU执行一条指令需要经过以下阶段：取指->译码->地址生成->取操作数->执行->写回，每个阶段都要消耗一个时钟周期，同时每个阶段的计算结果在周期结束以前都要发送到阶段之间的锁存器上，以供下一个阶段使用。所以，每个时钟周期所消耗的时间就是由以上几个阶段中的耗时最长的那个决定的。假设耗时最长的阶段耗时为s秒，那么时钟频率就只能设计到1/s赫兹（这里不考虑阶段间信号传递的时间和锁存器的反应时间）。

那么，要提高时钟频率，一种可能的方法就是减小每个阶段的时间消耗。其中一种最简单的办法，就是将每个阶段再进行细分成更小的步骤，同样是细分后的每个阶段，单个阶段的运算量小了，单位耗时s也就减少，这样实际上就是提高了时钟频率。这种将标准流水线细分的技术，就是超级流水线技术。当然，流水线和超级流水线之间并没有很明显的区别。这样的技术，虽然提高了CPU的主频，但是也带来了很大的副作用：

首先，细分后的每一个阶段都要在其后使用锁存器锁存，因此将一个阶段细分为N的子阶段并不能让单位时间减少到s/N, 而是s/N + d, 其中d为锁存器的反应时间。这实际上就是增加了多余的时间消耗。

其次，随着流水线级数的加深，一旦分支预测出现错误，会导致CPU中大量的指令作废，这样的消耗是十分巨大的。

以上原因，也就是什么Pentium IV具有31级的流水线，指令的执行效率却赶不上只有14级流水线的Pentium M

超标量 　　超标量（superscalar）是指在CPU中有一条以上的流水线，并且每时钟周期内可以完成一条以上的指令，这种设计就叫超标量技术。其实质是以空间换取时间。而超流水线是通过细化流水、提高主频，使得在一个机器周期内完成一个甚至多个操作，其实质是以时间换取空间。

将一条指令分成若干个周期处理以达到多条指令重叠处理,从而提高cpu部件利用率的技术叫做标量流水技术。超级标量是指cpu内一般能有多条流水线,这些流水线能够并行处理。在单流水线结构中，指令虽然能够重叠执行，但仍然是顺序的,每个周期只能发射(issue)或退休(retire)一条指令。超级标量结构的cpu支持指令级并行，每个周期可以发射多条指令(2-4条居多)。可以使得cpu的IPC(InstructionPerClock)>，从而提高cpu处理速度。超级标量机能同时对若干条指令进行译码，将可以并行执行的指令送往不同的执行部件，在程序运行期间，由硬件(通常是状态记录部件和调度部件)来完成指令调度。超级标量机主要是借助硬件资源重复(例如有两套译码器和ALU等)来实现空间的并行操作。熟知的pentium系列(可能是p-II开始),还有SUNSPARC系列的较高级型号,以及MIPS若干型号等都采用了超级标量技术。

超长指令字

超常指令字（VLIW：VeryLongInstructionWord）是由美国Yale大学教授Fisher提出的。它有点类似于超级标量，是一条指令来实现多个操作的并行执行，之所以放到一条指令是为了减少内存访问。通常一条指令多达上百位，有若干操作数，每条指令可以做不同的几种运算。那些指令可以并行执行是由编译器来选择的。通常VLIW机只有一个控制器，每个周期启动一条长指令，长指令被分为几个字段，每个字段控制相应的部件。由于编译器需要考虑数据相关性，避免冲突，并且尽可能利用并行，完成指令调度，所以硬件结构较简单。　　

VLIW机器较少，可能不太容易实现，业界比较有名的VLIW公司之一是Transmeta，在加州硅谷SantaClara（硅谷圣地之一，还有SanJose，PaloAlto）。它做的机器采用X86指令集，VLIW实现，具体资料可以去访问公司的网站。

向量机

平时接触的计算机都是标量机，向量机都是大型计算机，一般用于军事工业，气象预报，以及其他大型科学计算领域，这也说明了向量机都很贵。国产的银河计算机就是向量机普通的计算机所做的计算，例如加减乘除，只能对一组数据进行操作，被称为标量运算。向量运算一般是若干同类型标量运算的循环。向量运算通常是对多组数据成批进行同样运算，所得结果也是一组数据。很多做科学计算的大（巨）型机都是向量机，例如国产银河。

SIMD技术

单指令多数据（SingleInstructionMultipleData）简称SIMD。SIMD结构的CPU有多个执行部件，但都在同一个指令部件的控制下。SIMD在性能优势呢：以加法指令为例，单指令单数据（SISD）的CPU对加法指令译码后，执行部件先访问内存，取得第一个操作数；之后再一次访问内存，取得第二个操作数；随后才能进行求和运算。而在SIMD型CPU中，指令译码后几个执行部件同时访问内存，一次性获得所有操作数进行运算。这个特点使得SIMD特别适合于多媒体应用等数据密集型运算。AMD公司的3DNOW！技术其实质就是SIMD，这使K6－2处理器在音频解码、视频回放、3D游戏等应用中显示出优异性能。

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2020/08/17 ，如有侵权请联系 cloudcommunity@tencent.com 删除

机器学习