处理器并行设计

Flynn分类

处理器就是处理一系列指令和数据的设备,因此,从指令和数据这两个维度,可以对处理器的系统结构分类。1966年, Flynn将处理器系统结构分成了如下4类:

SISD( single instruction single data),一次处理一条指令,一条指令处理一份数据,早期的处理器都是这种形式。 SIMD( single instruction multiple data),-次处理一条指令,一条指令能处理多份数据,这种方式称为数据并行,现在性能稍微强一点的处理器都具备这种功能。 MISD( multiple instruction single data),一次处理多条指令,多条指令处理一份数据,这种结构没有实际意义。 MIMD( multiple instruction multiple data),一次处理多条指令,多条指令能处理多条数据,这种方式称为指令并行,高性能处理器都具备这个功能。 下图描述了指令并行性、数据并行性的示例: 并行,是提高处理器性能的不二法门,下面,我们就来详细介绍处理器的各种并行性。

指令并行( Instruction Level Parallelism)

指令并行的“绿营”和“蓝营

程序是由一系列指令组成的,如果要节省执行的时间,最直接的方法就是将指令并行起来执行。在处理器内部通常有很多的执行单元,如加法单元、乘法单元、内存访问单元、浮点运算单元等,每种执行单元负责一类具体的指令。在前面介绍的乱序执行内核中,每个Cycle最多只发射一条指令,即使有时很多指令并行执行,平均的指令执行效率也最多只有每个Cycle一条指令。如果发射单元一次能发射多条指令,那么就有更多指令能并行处理了,因此指令并行也称为multi-issue(多发射)。 哪些指令需要并行处理,这需要做判决,根据判决的地方不同,multi-Issue又分成了两个阵营:Superscalar和VLIW. 世上没有无缘无故的爱,也没有无缘无故的恨,没有无缘无故的Superscalar,也没有无缘无故的vLW.Superscalar和VLIW也是随着历史趋势慢慢发展起来的。 Superscalar是由 supeR(超)+ scalar(标量)组成,标量处理器时代的指令都是串行执行的,处理器为了兼容原有的程序,但同时又要提高程序执行效率,就在处理器内部做了指令的并行化处理。这就是超标量处理器的基本原型。

如果将指令的并行化显示的声明在指令格式中,处理器只是傻呼呼的执行,这种方式称为VLIW( Very Long Instruction Word)。指令的并行化可由编译器完成,也可以由程序员手工写并行汇编代码实现.

VLIW的典型代表是DSP。 TI DSP所使用的汇编代码格式如下:

指令前面的“||”表示这条指令和上条指令在同一个Cycle执行,如果没有“||”,则表示这条指令在下一个Cycle执行。在机器码中,每条指令占32bit,“‖”在第0bit表示,处理器只需按照指令规则执行即可。

早期的汇编语言都没有单独的字段描述当前指令是否和其他指令并行执行,处理器在发展时,为了保证指令集的兼容性,都采用了Superscalar结构,如x86、MIPS、ARM等。Superscalar的代价是处理器内部有不少的资源用于将串行的指令序列转换成可以并行的指令序列,这大大的增加了处理器的功耗和面积。而后来产生的新的指令集的处理器,大都采用了ⅤLIW结构,如 Tilera和Tensilica公司的处理器。

在 Multi-Issue结构中,不乱序也能实现一定程度的并行。例如,处理器内部有两条执行路径,一条路径执行浮点指令,一条路径执行整数指令,由于浮点指令和整数指令分别使用不同的寄存器,它们没有相关性,可以并行执行。不过,乱序执行的结构,更能提高指令的并行性,当然也需要更多的硬件资源。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏FreeBuf

从javascript脚本混淆说起

脚本病毒是一个一直以来就存在,且长期活跃着的一种与PE病毒完全不同的一类病毒类型,其制作的门槛低、混淆加密方式的千变万化,容易传播、容易躲避检测,不为广大网民熟...

3744
来自专栏Kubernetes

Golang性能调优(go-torch, go tool pprof)

Go语言已经为开发者内置配套了很多性能调优监控的好工具和方法,这大大提升了我们profile分析的效率。此外本文还将重点介绍和推荐uber开源的go-torch...

9776
来自专栏用户2442861的专栏

分页和分段的联系和区别

    用户程序的地址空间被划分成若干固定大小的区域,称为“页”,相应地,内存空间分成若干个物理块,页和块的大小相等。可将用户程序的任一页放在内存的任一块中,实...

4051
来自专栏游戏杂谈

Ant+JSDocTookit生成Javascript文档

需要备上下面三样东西 JSDocTookit http://code.google.com/p/jsdoc-toolkit/

1333
来自专栏阮一峰的网络日志

代码覆盖率工具 Istanbul 入门教程

测试的时候,我们常常关心,是否所有代码都测试到了。 这个指标就叫做"代码覆盖率"(code coverage)。它有四个测量维度。 行覆盖率(line co...

3294
来自专栏大数据人工智能

2018年 阿里云大牛工程师经历过的20道大数据面试题!

1.Java中Class.forName和ClassLoader.loadClass的区别

3974
来自专栏开发 & 算法杂谈

基于Lockset的数据竞争检测方法汇总(二)

前一篇文章提到的是使用Lockset最经典的方法,但是存在很多误报,针对这些误报产生的原因,有很多分析并改进了原始的Lockset方法,今天主要和大家谈的就是有...

1617
来自专栏游戏杂谈

url空格转码的问题

最开始我使用的是chrome,发现有脚本报错了,以为是服务器维护了,但再一想,不对啊,刚刚明明是好的,再返回首页,正常。再输入搜索信息,又遇到了这个界面。然后我...

1316
来自专栏CDA数据分析师

Python性能分析指南

虽然你所写的每个Python程序并不总是需要严密的性能分析,但是当这样的问题出现时,如果能知道Python生态系统中的许多种工具,这样总是可以让人安心的。 分析...

2045
来自专栏FreeBuf

Gadget构造:从JIT-ROP到对抗XnR

写在前面 简单地说,本文介绍了两种构造gadget的思路。(在浏览器支持JIT的情况下) 演进:关于JIT-ROP 我们知道,最初DEP的出现是为了对抗的栈溢...

3314

扫码关注云+社区