AMD GCN 微架构之超算细节详解

在 2012 年,AMD 正式推出了代号为的 Tahiti 的新 GPU,这个 GPU 的特别之处在于采用了名为 Graphics Core Next 的全新架构,指令集由 VLIW5/VLIW4 改为通用计算效率更好的标量指令(硬件隐式 SIMD),从那时起到现在,AMD 的所有新 GPU 都采用了 SIMD16 的 GCN 微架构,特别是在通用计算领域,GCN 的问世让 AMD 在这个领域得以和竞争对手一较高下。

GCN 发布至今,按照 AMD 的划分,经过了 1.0、1.1、1.2 三个 ISA(指令集)版本,1.0 对应的 GPU 系列是 Southern Islands(旗舰自然是 Tahiti),1.1 对应 Sea Island(旗舰是 Hawaii),1.2 是目前最新的,对应 Volcanic Islands(目前该系列最高端的 GPU 代号是 Tonga)。

这些 ISA 版本号一般只出现在开发工具和资料中,平常大家看到的都是产品的具体型号,这就好像 NVIDIA CUDA 资料中提到的 Compute Capability(计算能力)一样,便于开发人员区分设备。

一般来说,版本号较新的微架构都会具备上一版本更丰富的“关键特性”,但是它和性能没有直接关系,性能的高低取决于实现(也就是具体的 GPU),例如 GCN 1.1 支持 OpenCL 2.0,但是 GCN 1.1 的低端系列在性能上是无法比得上 GCN 1.0 的高端产品。

出于宣传的考量,GPU 厂商会把一些术语弄得让人摸不着头脑,有时候还会做一些夸张阐述。例如 NVIDIA 把功能单元称作“core(内核)”,而最低端的 GPU 就有几十个这样的功能单元,高端顶配的更是有数千个,于是乎就出现了 GPU 有数千个内核,看上去挺吓人的。

为了避免不必要的误解和统一,我们在这里以 OpenCL 中的术语为准,例如功能单元称作 PE,GPU 厂商的 thread 则称作 work-item,thread block 称作 work-group。AMD 在 GCN 发布后,也是采用了 OpenCL 的术语来阐述 GPU 中的各种名词,如果你手头有一本 OpenCL 的书籍或者电子文档的话,就能非常清楚我说的是什么。

GPU 中和 CPU 内核比较相似的单位就是 AMD/OpenCL 中称作 Compute Unit 或者是 NVIDIA 称作 SM(Kepler 中称作 SMX,Maxwell 中称作 SMM) 的组件,因为它们都有名为 Program Counter(程序计数器)的单元,用作指向当前 CU 或者 SM 下一条要执行的指令地址,这使得 CU/SM 看上去非常类似与 CPU 概念中的内核。

当然由于受到制造工艺的限制,目前的 CU/SM 和 CPU 内核相比还是有不少区别的,例如 CPU 很早之前就可以抢占式多任务,而目前的 GPU 都不具备这样的特性,只能是当前的 kernel 跑完后再跑另一个 kernel,又或者直接咔嚓掉当前还在跑的 kernel(如果显卡连接着显示器的话,在 Windows 中遇到 kernel 长时间没有执行完毕的话就会出现大家“喜闻乐见”的 GPU 复位)。

(continue...)

原文发布于微信公众号 - 吉浦迅科技(gpusolution)

原文发表时间:2015-01-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Crossin的编程教室

答同学问

很多大学今天开始新学期了,咱们教室也增加了不少新同学。刚来的同学,可以发送p查看python入门课程的目录,也可以直接发送1~53,进入对应的课程。不用被已经进...

2957
来自专栏HelloCode开发者学习平台

iOS开发-音视频开发

5G网络作为第5代的移动通信网络,它的网络峰值传播速度可1以达到10Gbps/s.这比4G的的传输速度快数百倍.举个例子,整部超高画质电影下载可在1秒钟之内下载...

2084
来自专栏Python专栏

一次错爱的面试---爱奇艺运开

1386
来自专栏微信音视频小程序

教你快速搭建一场发布会直播方案

单场次直播是指同时只有一条(或几条)直播流进行直播,直播内容都是官方 PGC 内容,常被客户用于活动直播、领导讲话等直播场景,2017年底非常红火的冲顶在线答题...

5535
来自专栏web前端教室

前端工程师的未来亮点在哪

前端开发这个职业,在目前以我老旧的工作经验来看,虽然有些百花齐放的姿势,但根上依然是JS(ES5\6)、CSS(2\3)、HTML(4\5)。看的再聚集一点,依...

2156
来自专栏BestSDK

一文揭秘,爬虫那些不为人知的套路

1、真实世界的爬虫比例 大家应该听过一句话吧,大概意思是说,整个互联网上大概有50%以上的流量其实是爬虫。第一次听这句话的时候,我还不是很相信,我觉得这个说法实...

4479
来自专栏养码场

一周播报|好莱坞影星iCloud屡次被侵,云时代数据泄漏了怎么办?

讨论下LDAP实现的认证如何支持权限控制的?适合哪些场景下用?之所以在公司内部用而不在电商上用是因为安全性不高吗?

671
来自专栏程序员的知识天地

月薪2万的爬虫工程师,Python需要学到什么程度?

非计算机专业,正在自学python,很多教程里提到的网站的爬虫都会写了。比如拉勾网,豆瓣,实习僧,京东,淘宝,某妹子图等等……但是因为不是计算机专业的,也没学所...

1.3K4
来自专栏安智客

浅谈三星KNOX安全解决方案

我们之前谈过各种TEE的软硬件实现,包括Intel SGX方案、AMD的PSP技术、TI公司的M-shield安全技术、以及MIP架构上的虚拟化TEE实现等...

4266
来自专栏java架构技术

java程序员|超详细面经(四面一总结),助你逆袭!

面经不同的人问的问题很可能不同,不能押宝在这里,不过帮助大家用来做模拟还是不错的~以下按收到offer顺序列出

2031

扫码关注云+社区