为什么说NVIDIA推出了史上最强的GPU？

GPUS Lady

发布于 2018-08-17 14:43:50

1.3K0

发布于 2018-08-17 14:43:50

文章被收录于专栏：GPUS开发者

本篇只代表Lady及其攻城狮的观点，如有雷同，纯属巧合。

8月14日早上北京时间7点，在SIGGRAPH 2018计算机图形与交互技术大会上，英伟达创始人兼CEO黄仁勋推出世界上第一款光线追踪GPU！据媒体报道老黄把这块GPU称作”自2006年以来最重要的一块GPU“，耗时10年打造。

光线追踪GPU使用的核心架构即是英伟达此次推出的全新架构——图灵（Turing）。

注意，Lady要在这里Highlight几点：

(1)光线追踪长期以来一直都有，需要很大量的计算量，一般用于渲染之类的行业，或者一些游戏中。本次之前谣传——以后不再存在GTX系列了，改名成RTX。注意谣传说因为这里的RT代表了Ray-Tracing和Real-Time两种含义，后者是实时性，因为从CUDA的10多年前开始, 就已经不再有固定功能的硬件了，所有的一切都是通过SP计算得到来的(所以为何叫CUDA, 计算统一)。

带来了本文的(2):实时性, 特别是光线追踪这种需要大量的计算的, 往往需要海量的运算性能提升，不仅仅有计算的强大加强（TensorCore支持Int8和int4了），还有了单独的RT Core。这说明有些东西可能光靠常规的计算完不成的，可能还需要有一定的专用硬件功能辅助，有点类似嵌入的ASIC处理特别的功能。可能增强的TensorCore 辅助新加入的RT Core，一起来完成Realtime的Ray-Tracing的。能将巨大的运算量完成实时渲染，这点实际上很伟大！

BTW，在本次之前种谣传, 因为Volta架构的对应的低端卡迟迟没有出来(除了Titan-V)，说NV不准备将Volta直接做成低端卡，而是3个可能架构中选:图灵, 安陪，这两种是新增的。之前我曾经在著名的NV的猜测主题中，也就是beyond3d网站的传统系列，每代卡出来之前的猜测专题中看了很久。和历届的总能出来消息不同，本次无提前的任何官泄,也没有提前的任何的以NV的员工的名义的人在这个主题上提供任何资料，以前的Fermi,Kepler,Maxwell,Pascal各种都是有过的，但本次特殊，NVIDIA 的保密工作十分到位。.

本次NV在这个新图灵架构上提供了能大量加速实时性计算(包括光线追踪, 以及, VR/AR)上面的增强特性.这带来了第(3)点:该运算性能增强是浮点的? 还是整数的?是否是谣传以久的FP8?

注意这里：具有16T单精度浮点性能，每秒10G Rays，每秒500T OPs INT4，250TOPS INT8。

还有这里，目前NV的图里面给出的性能单位是10G Rays/Sec，不知道这个单位的意思。10G条光线每秒，不知道是指的折算到什么计算的情况下说的。

图中的INT8和INT4都是TensorCore完成的。考虑到以前的TensorCore是FP16+FP32混合的（最后的FP32只做最后一步的加法），也就是说，我们遇到了Tensor Core 2.0版了。很可能是到时候INT4的数据类型能任意混合FP16或者INT8参与计算。例如A × B里面，A是INT4的，而B是FP16的。这样可能很有用，也比普通的SP核心（计算核心。因为CUDA是计算一体的，SP同时复制图形绘制和计算）中的通用指令进行类型转换再运算要节省的多。也就是说, 以后这卡很有可能会适合专门用于推导的极好平台，很多深度学习用户部署的时候用，那种以前靠堆硬件, 例如8卡1080Ti，来提升推倒能力的，被这现在的1张卡都秒了.这会带来行业的变革。这还没完. 根据这个推广, 这种加速极大的, 集成在显卡里面的新东西,对于所有的能用相关数据类型的操作都能适用，例如图像处理行业会引发大量变革.因为这里面大量的适用了INT8，以及, 光线追踪(例如很真实的场景重现)。

请注意NV有个风格.发布东西的时候用实例.但是我们一定要看到这卡的本质是什么，增强在哪里。

再注意最上面通用计算那块，现在是concurrent FP + INT指令(通用指令, 不是说的专用加速的下面的FP16/INT8/4)。以前的卡有双精度性能指标，单精度性能指标，整数性能指标，例如: 100%的单精度XXX T, 50%的双精度 XXX T, 32-bit整数 XXX T。但是以前是不能同时用的，一个代码如果用了整数, 对应的单精度性能就没有了，现在是concurrent FP + INT了，也就是说, 能同时都用到峰值，这才是通用计算中最厉害的地方！可以实现浮点运算和整数运算并发，等于两张卡了：一张整数卡，一张浮点卡。前者可以图像处理，后者科学计算。

然后看到面积图，通用计算和图形处理（SP）和TensorCore，RT Core大致是2：1：1，这样的面积占用，也就是除了以前的CUDA的SP之外的专用运算部分都占据了和SP们一样的面积了。那么下一代的卡，如果是家用的，显然不可能叫1180了，必须是2080，否则对不起这个面积。

当然还是有几个问题需要思考：

SM里面的RT Core是否需要专用API调用？还是能像compute kernel/shader那样，用指令逐步操作？估计不可能是后一种。

也不知道新的SM里面的scheduler是会做何种改进。能否Tensor Core指令，和普通的SP指令（FP和INT）能否同时执行，如果能的话，就非常强大了。

突然想到国内的BTM/Tensority团队和比特大陆。以前有个BTC，大家都说挖矿是在浪费能源。很多人都骂这点，说是炒作，浪费国家电力。然后国内出来了一个BTM团队，弄个新的叫Tensority的工作量证明算法，这个算法是×矩阵运算×INT8的矩阵乘法。这样他们说以后挖矿将不在是浪费电力的，因为要设计出来这种挖矿芯片，同时还能用于AI和深度学习。于是他们请比特大陆（国内的著名的市值和NV一样高的新兴公司），做了一个叫Antminer B3的蚂蚁挖矿机。这个矿机并不便宜，但是不妨碍很多人抢着买。但是很快网上出了一个用GPU（Pascal计算）的bminer软件，利用Pascal（6.1）里面的INT8加速（虽然只有4X，不如图灵的16X），然后一张1060，能到800次哈希/s，而之前的上万元的蚂蚁B3，最初只能到750次哈希每秒，结果ASIC被GPU打脸了。

然后比特大陆和BTM团队正在造INT8性能更好的新芯片，现在好了，NVIDIA图灵出来了。直接1600%的INT8，到了250TOPS了.....

这画面太美，我知道那两家现在在想什么....

总之很期待RTX卡的上市！

在这里只想对老黄说一句：

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2018-08-15，如有侵权请联系 cloudcommunity@tencent.com 删除

其他

本文分享自 GPUS开发者微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

其他

登录后参与评论

0 条评论

热度

为什么说NVIDIA推出了史上最强的GPU？

为什么说NVIDIA推出了史上最强的GPU？

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐