最开始的处理器比较简单,8086处理器是评估当前的指令指针(CS:IP)指向的指令,然后再执行解码、执行、退出,并移动指令指针到下一个位置,每一个新的芯片都做了改进,大多数的芯片增加了新的功能,一些增加了新的寄存器,基于本篇文章的目的,我主要关注在对指令集运行方面有很大影响的变化,其它的例如新增了虚拟内存空间或者平行处理器等也非常值得一说和有用,但是这篇文章不会讨论。
指令集缓存在1982年被加入到CPU中,取代了每次执行一个指令都要去访问主内存,CPU只要读取当前指令指针指向的数据即可,但是指令集缓存很小,仅仅可以缓存很少的指令,但是确实通过减少了来回访问主内存的次数提高了性能。
1985年,386新增了数据缓存,同时扩展了指令集缓存,通过读取数据之外的层面提高了性能,在这点上指令集缓存和数据缓存大大小也从几个字节上升到几千的字节层面。
1989年,i486升级到了5层流水线,相对于以前每个CPU只有一个指令处理的流水线,现在每一层都有一个指令处理流水线,在相同的时钟频率下,486的性能是386的2倍,每一个流水线都从缓存中获取指令(当时的指令集缓存大部分都是8KB),第2层的流水线会解码指令集,3层会解析指令执行需要的内存地址(要理解这一点需要明白计算机中的内存地址表示方式),第4层会执行指令,第5层执行退出,如果需要的话把结果写回到寄存器和主内存。在CPU可以一次处理多个指令之后,程序可以运行的更快了。
1993年,奔腾处理器诞生,由于法律诉讼原因处理器的名字由数字被变为名称,这就是为什么叫奔腾而不叫586的原因,奔腾架构新增了一个二级独立超大流水线,主流水线和i486类似,但是二级流水线执行一些简单指令,例如整数的运算,并行并且变得更快了。
1995年,Intel发布了奔腾专业版,这是一个完全不同的处理器设计,这个芯片有几个最新的特性包括无序执行核心(OOOcore)和随机执行,流水线被扩展到了12层,它包括一个叫做超级流水线的东西,许多指令可以被并行同时处理,这个OOO核心我们后面会深入讨论一下。在1995年OOO被引进到2002年我们的下一个阶段出现之间,有很多变化,新增了额外的寄存器,一条指令处理多条数据(单指令多数据或者叫SIMD),缓存被不断添加,已有的缓存被不断增大,流水线有时被拆分了有时被固定,这些改变对性能翻倍提升都特别重要,但是这些改变对于通过芯片的数据流的改变都不大(这块不太理解)。
2002年,奔腾4核心处理器引入了一项新的技术:”超线程“,OOO核心在提升CPU处理指令流的方面太成功了以至于处理的速度要比指令发送给核心的速度还要快,甚至在(高)负载的情况下,对于大多数的用户来说OOO核心因为效率太高了所以大部分时间都是空闲,为了更稳定和高效的给OOO核心发送指令,他们设计了第2层的front-end,操作系统会识别到2个CPU,有2组的寄存器,有2组的指令集解码器在遍历指令集指针和处理结果(相当于要加速给核心发送指令集的速度),结果集被一个共享的OOO核心处理,但是这个过程应用程序是不知道的,然后指令就像以前那样执行退出,结果被发送给他们来的那个对应的核心。(这里翻译的不好,大家有时间可以看看原文。)
2006年,Intel发布了微核心架构,更长远来看,它被称为“core 2”(因为人们知道core2 肯定比core1要好),有一个让人惊讶的改动,CPU的时钟频率被降低了,超线程也被移除了,通过降低时钟频率,Intel才可以扩展了所有的流水线平台,OOO核心被扩展了,缓存和缓冲区被加大了,处理器被重新设计成为专注于具有共享高速缓存的双核和四核芯片。
2008年,Intel发布了一系列的酷睿i3、i5和i7处理器,被设计成为重新引入了带有共享OOO核心的超线程处理器,这3款处理器最大的区别就是内部的缓存大小不一样。
未来的处理器,下一代的微架构处理器更新现在叫做HasWell,大概会在2013年发布,到目前为止公布的文档显示这款处理器采用了14-stage的OOO核心流水线,所以数据流的设计很可能仍然在遵循奔腾专业的设计
Intel Nehalem是Intel研发的中央处理器微架构之代号,该架构取代了前代的Core微处理器架构。使用Nehalem架构的微处理器采用45纳米 制程(后期改用32纳米制程),在2007年的Intel开发者论坛上Intel官方展示了一个采用两颗INehalem微架构的处理器的系统平台。首款采用Intel Nehalem架构的处理器是2008年11月正式发售的桌面型处理器Intel Core i7 。
目前Inter Core i7使用Nehalem微架构来实现CPU内部结构,而ARM微架构依然沿用Cortex。
Nehalem是一款OOO(Out of Order)乱序执行的Superscaler(超标量)的X86处理器。
超标量意味着CPU中有多个执行单元,可以在同一时刻执行多条无相关依赖性的指令,从而达到提升ILP(Instruction Level Parallelism)指令并行化的目的。
乱序执行则是指在多个执行单元的超标量设计中,一系列的执行单元可以同时运行一些没有数据以及逻辑关联的若干指令,只有需要等待其他指令运算结果的数据会依照顺序执行,从而提升执行效率。
Intel Nehalem arch
Inter Core i5
由于X86是CISC指令集的处理器,CISC的指令是变长指令集,所以在解码之前,需要将指令进行解析,确定指令的前缀、长度等等,而RISC指令集则不需要进行该处理,因为RISC是等长指令集。
X86的CPU属于CISC指令集,由于CISC的指令长度不固定,而且执行时间也不固定,所以Nehalem架构会将CISC指令通过Predecode以及Decode处理成类RISC指令(也就是Decode完的MicroOp),因为RISC指令长度等长,执行时间恒定,通常一个cycle就能执行完,因此后续处理器设计就会比较简单,并且流水线的长度可以达到很长,使得CPU可以到达很高的频率。
Loop Stream Decoder会对循环段(如for,while,do...while)少于28个ops的情况下,会保存起来,而不需要再重新取指,进行分支预测以及解码等操作,并且Instruction Sequencer会将指令进行序列化
OOOE是为了直接提升ILP(Instruction Level Parallelism)指令集并行化的设计,在多个执行单元的超标量设计中,一系列执行单元可以同时执行一些没有数据关联性的若干指令,只有需要等待其他指令运算结果的数据会按照顺序执行。
寄存器重命名避免了机器指令或者微操作不必要的顺序化执行,从而提高了处理器的指令级并行的能力。
CPU中分为以下重要的部件:
http://blog.jobbole.com/40844/ https://commons.wikimedia.org/wiki/File:Intel_Nehalem_arch.svg http://wsfdl.com/linux/2016/06/11/%E7%90%86%E8%A7%A3CPU%E7%9A%84cache.html http://igoro.com/archive/gallery-of-processor-cache-effects/ http://cyningsun.github.io/06-01-2016/nehalem-arch.html https://classroom.udacity.com/courses/ud007/lessons/fecc80f7-8a59-4708-af48-80d2c6453747/concepts/c71890f8-b128-4c5d-86dd-a704e99e09af https://compas.cs.stonybrook.edu/~nhonarmand/courses/sp15/cse502/slides/12-inst_flow.pdf http://test.m.it168.com/article_369202.html http://server.it168.com/a2008/1224/261/000000261184_3.shtml Inside Nehalem: Intel’s Future Processor and System