前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >为什么说NVIDIA推出了史上最强的GPU?

为什么说NVIDIA推出了史上最强的GPU?

作者头像
GPUS Lady
发布2018-08-17 14:43:50
1.2K0
发布2018-08-17 14:43:50
举报
文章被收录于专栏:GPUS开发者GPUS开发者

本篇只代表Lady及其攻城狮的观点,如有雷同,纯属巧合。

8月14日早上北京时间7点,在SIGGRAPH 2018计算机图形与交互技术大会上,英伟达创始人兼CEO黄仁勋推出世界上第一款光线追踪GPU!据媒体报道老黄把这块GPU称作”自2006年以来最重要的一块GPU“,耗时10年打造。

光线追踪GPU使用的核心架构即是英伟达此次推出的全新架构——图灵(Turing)。

注意,Lady要在这里Highlight几点:

(1)光线追踪长期以来一直都有,需要很大量的计算量,一般用于渲染之类的行业, 或者一些游戏中。本次之前谣传——以后不再存在GTX系列了,改名成RTX。注意谣传说因为这里的RT代表了Ray-Tracing和Real-Time两种含义,后者是实时性,因为从CUDA的10多年前开始, 就已经不再有固定功能的硬件了,所有的一切都是通过SP计算得到来的(所以为何叫CUDA, 计算统一)。

带来了本文的(2):实时性, 特别是光线追踪这种需要大量的计算的, 往往需要海量的运算性能提升,不仅仅有计算的强大加强(TensorCore支持Int8和int4了),还有了单独的RT Core。这说明有些东西可能光靠常规的计算完不成的, 可能还需要有一定的专用硬件功能辅助,有点类似嵌入的ASIC处理特别的功能。可能增强的TensorCore 辅助 新加入的RT Core,一起来完成Realtime的Ray-Tracing的。能将巨大的运算量完成实时渲染,这点实际上很伟大!

BTW,在本次之前种谣传, 因为Volta架构的对应的低端卡迟迟没有出来(除了Titan-V),说NV不准备将Volta直接做成低端卡,而是3个可能架构中选:图灵, 安陪,这两种是新增的。之前我曾经在著名的NV的猜测主题中,也就是beyond3d网站的传统系列,每代卡出来之前的猜测专题中看了很久。和历届的总能出来消息不同,本次无提前的任何官泄,也没有提前的任何的以NV的员工的名义的人在这个主题上提供任何资料,以前的Fermi,Kepler,Maxwell,Pascal各种都是有过的,但本次特殊,NVIDIA 的保密工作十分到位。.

本次NV在这个新图灵架构上提供了能大量加速实时性计算(包括光线追踪, 以及, VR/AR)上面的增强特性.这带来了第(3)点:该运算性能增强是浮点的? 还是整数的?是否是谣传以久的FP8?

注意这里:具有16T单精度浮点性能,每秒10G Rays,每秒500T OPs INT4,250TOPS INT8。

还有这里,目前NV的图里面给出的性能单位是10G Rays/Sec,不知道这个单位的意思。10G条光线每秒,不知道是指的折算到什么计算的情况下说的。

图中的INT8和INT4都是TensorCore完成的。考虑到以前的TensorCore是FP16+FP32混合的(最后的FP32只做最后一步的加法),也就是说,我们遇到了Tensor Core 2.0版了。很可能是到时候INT4的数据类型能任意混合FP16或者INT8参与计算。例如A × B里面,A是INT4的,而B是FP16的。这样可能很有用,也比普通的SP核心(计算核心。因为CUDA是计算一体的,SP同时复制图形绘制和计算)中的通用指令进行类型转换再运算要节省的多。也就是说, 以后这卡很有可能会适合专门用于推导的极好平台,很多深度学习用户部署的时候用,那种以前靠堆硬件, 例如8卡1080Ti,来提升推倒能力的,被这现在的1张卡都秒了.这会带来行业的变革。这还没完. 根据这个推广, 这种加速极大的, 集成在显卡里面的新东西,对于所有的能用相关数据类型的操作都能适用,例如图像处理行业会引发大量变革.因为这里面大量的适用了INT8,以及, 光线追踪(例如很真实的场景重现)。

请注意NV有个风格.发布东西的时候用实例.但是我们一定要看到这卡的本质是什么,增强在哪里。

再注意最上面通用计算那块,现在是concurrent FP + INT指令(通用指令, 不是说的专用加速的下面的FP16/INT8/4)。以前的卡有双精度性能指标,单精度性能指标,整数性能指标,例如: 100%的单精度XXX T, 50%的双精度 XXX T, 32-bit整数 XXX T。但是以前是不能同时用的,一个代码如果用了整数, 对应的单精度性能就没有了,现在是concurrent FP + INT了,也就是说, 能同时都用到峰值,这才是通用计算中最厉害的地方!可以实现浮点运算和整数运算并发,等于两张卡了:一张整数卡,一张浮点卡。前者可以图像处理,后者科学计算。

然后看到面积图,通用计算和图形处理(SP)和TensorCore,RT Core大致是2:1:1,这样的面积占用,也就是除了以前的CUDA的SP之外的专用运算部分都占据了和SP们一样的面积了。那么下一代的卡, 如果是家用的, 显然不可能叫1180了,必须是2080,否则对不起这个面积。

当然还是有几个问题需要思考:

SM里面的RT Core是否需要专用API调用?还是能像compute kernel/shader那样,用指令逐步操作?估计不可能是后一种。

也不知道新的SM里面的scheduler是会做何种改进。能否Tensor Core指令,和普通的SP指令(FP和INT)能否同时执行,如果能的话,就非常强大了。

突然想到国内的BTM/Tensority团队和比特大陆。以前有个BTC,大家都说挖矿是在浪费能源。很多人都骂这点,说是炒作,浪费国家电力。然后国内出来了一个BTM团队,弄个新的叫Tensority的工作量证明算法,这个算法是×矩阵运算×INT8的矩阵乘法。这样他们说以后挖矿将不在是浪费电力的,因为要设计出来这种挖矿芯片,同时还能用于AI和深度学习。于是他们请比特大陆(国内的著名的市值和NV一样高的新兴公司),做了一个叫Antminer B3的蚂蚁挖矿机。这个矿机并不便宜,但是不妨碍很多人抢着买。但是很快网上出了一个用GPU(Pascal计算)的bminer软件,利用Pascal(6.1)里面的INT8加速(虽然只有4X,不如图灵的16X),然后一张1060, 能到800次哈希/s,而之前的上万元的蚂蚁B3,最初只能到750次哈希每秒,结果ASIC被GPU打脸了。

然后比特大陆和BTM团队正在造INT8性能更好的新芯片,现在好了,NVIDIA图灵出来了。直接1600%的INT8,到了250TOPS了.....

这画面太美,我知道那两家现在在想什么....

总之很期待RTX卡的上市!

在这里只想对老黄说一句:

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-08-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 GPUS开发者 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档