为什么说NVIDIA推出了史上最强的GPU?

本篇只代表Lady及其攻城狮的观点,如有雷同,纯属巧合。

8月14日早上北京时间7点,在SIGGRAPH 2018计算机图形与交互技术大会上,英伟达创始人兼CEO黄仁勋推出世界上第一款光线追踪GPU!据媒体报道老黄把这块GPU称作”自2006年以来最重要的一块GPU“,耗时10年打造。

光线追踪GPU使用的核心架构即是英伟达此次推出的全新架构——图灵(Turing)。

注意,Lady要在这里Highlight几点:

(1)光线追踪长期以来一直都有,需要很大量的计算量,一般用于渲染之类的行业, 或者一些游戏中。本次之前谣传——以后不再存在GTX系列了,改名成RTX。注意谣传说因为这里的RT代表了Ray-Tracing和Real-Time两种含义,后者是实时性,因为从CUDA的10多年前开始, 就已经不再有固定功能的硬件了,所有的一切都是通过SP计算得到来的(所以为何叫CUDA, 计算统一)。

带来了本文的(2):实时性, 特别是光线追踪这种需要大量的计算的, 往往需要海量的运算性能提升,不仅仅有计算的强大加强(TensorCore支持Int8和int4了),还有了单独的RT Core。这说明有些东西可能光靠常规的计算完不成的, 可能还需要有一定的专用硬件功能辅助,有点类似嵌入的ASIC处理特别的功能。可能增强的TensorCore 辅助 新加入的RT Core,一起来完成Realtime的Ray-Tracing的。能将巨大的运算量完成实时渲染,这点实际上很伟大!

BTW,在本次之前种谣传, 因为Volta架构的对应的低端卡迟迟没有出来(除了Titan-V),说NV不准备将Volta直接做成低端卡,而是3个可能架构中选:图灵, 安陪,这两种是新增的。之前我曾经在著名的NV的猜测主题中,也就是beyond3d网站的传统系列,每代卡出来之前的猜测专题中看了很久。和历届的总能出来消息不同,本次无提前的任何官泄,也没有提前的任何的以NV的员工的名义的人在这个主题上提供任何资料,以前的Fermi,Kepler,Maxwell,Pascal各种都是有过的,但本次特殊,NVIDIA 的保密工作十分到位。.

本次NV在这个新图灵架构上提供了能大量加速实时性计算(包括光线追踪, 以及, VR/AR)上面的增强特性.这带来了第(3)点:该运算性能增强是浮点的? 还是整数的?是否是谣传以久的FP8?

注意这里:具有16T单精度浮点性能,每秒10G Rays,每秒500T OPs INT4,250TOPS INT8。

还有这里,目前NV的图里面给出的性能单位是10G Rays/Sec,不知道这个单位的意思。10G条光线每秒,不知道是指的折算到什么计算的情况下说的。

图中的INT8和INT4都是TensorCore完成的。考虑到以前的TensorCore是FP16+FP32混合的(最后的FP32只做最后一步的加法),也就是说,我们遇到了Tensor Core 2.0版了。很可能是到时候INT4的数据类型能任意混合FP16或者INT8参与计算。例如A × B里面,A是INT4的,而B是FP16的。这样可能很有用,也比普通的SP核心(计算核心。因为CUDA是计算一体的,SP同时复制图形绘制和计算)中的通用指令进行类型转换再运算要节省的多。也就是说, 以后这卡很有可能会适合专门用于推导的极好平台,很多深度学习用户部署的时候用,那种以前靠堆硬件, 例如8卡1080Ti,来提升推倒能力的,被这现在的1张卡都秒了.这会带来行业的变革。这还没完. 根据这个推广, 这种加速极大的, 集成在显卡里面的新东西,对于所有的能用相关数据类型的操作都能适用,例如图像处理行业会引发大量变革.因为这里面大量的适用了INT8,以及, 光线追踪(例如很真实的场景重现)。

请注意NV有个风格.发布东西的时候用实例.但是我们一定要看到这卡的本质是什么,增强在哪里。

再注意最上面通用计算那块,现在是concurrent FP + INT指令(通用指令, 不是说的专用加速的下面的FP16/INT8/4)。以前的卡有双精度性能指标,单精度性能指标,整数性能指标,例如: 100%的单精度XXX T, 50%的双精度 XXX T, 32-bit整数 XXX T。但是以前是不能同时用的,一个代码如果用了整数, 对应的单精度性能就没有了,现在是concurrent FP + INT了,也就是说, 能同时都用到峰值,这才是通用计算中最厉害的地方!可以实现浮点运算和整数运算并发,等于两张卡了:一张整数卡,一张浮点卡。前者可以图像处理,后者科学计算。

然后看到面积图,通用计算和图形处理(SP)和TensorCore,RT Core大致是2:1:1,这样的面积占用,也就是除了以前的CUDA的SP之外的专用运算部分都占据了和SP们一样的面积了。那么下一代的卡, 如果是家用的, 显然不可能叫1180了,必须是2080,否则对不起这个面积。

当然还是有几个问题需要思考:

SM里面的RT Core是否需要专用API调用?还是能像compute kernel/shader那样,用指令逐步操作?估计不可能是后一种。

也不知道新的SM里面的scheduler是会做何种改进。能否Tensor Core指令,和普通的SP指令(FP和INT)能否同时执行,如果能的话,就非常强大了。

突然想到国内的BTM/Tensority团队和比特大陆。以前有个BTC,大家都说挖矿是在浪费能源。很多人都骂这点,说是炒作,浪费国家电力。然后国内出来了一个BTM团队,弄个新的叫Tensority的工作量证明算法,这个算法是×矩阵运算×INT8的矩阵乘法。这样他们说以后挖矿将不在是浪费电力的,因为要设计出来这种挖矿芯片,同时还能用于AI和深度学习。于是他们请比特大陆(国内的著名的市值和NV一样高的新兴公司),做了一个叫Antminer B3的蚂蚁挖矿机。这个矿机并不便宜,但是不妨碍很多人抢着买。但是很快网上出了一个用GPU(Pascal计算)的bminer软件,利用Pascal(6.1)里面的INT8加速(虽然只有4X,不如图灵的16X),然后一张1060, 能到800次哈希/s,而之前的上万元的蚂蚁B3,最初只能到750次哈希每秒,结果ASIC被GPU打脸了。

然后比特大陆和BTM团队正在造INT8性能更好的新芯片,现在好了,NVIDIA图灵出来了。直接1600%的INT8,到了250TOPS了.....

这画面太美,我知道那两家现在在想什么....

总之很期待RTX卡的上市!

在这里只想对老黄说一句:

原文发布于微信公众号 - 吉浦迅科技(gpusolution)

原文发表时间:2018-08-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏架构师小秘圈

为什么说英语是一个码农成熟的标志?

作为在中国工作的程序员,不懂得英语似乎也不妨碍找到好工作,升职加薪。但程序员这个工种则稍有不同,因为程序,尤其是高级语言,基本上都是由英语 和数字表达式构成的。...

52411
来自专栏养码场

22G的算法导论+算法基础+算法精讲!干货三连击,让你从基础连跳至实战!

上周有群友向场主要算法的干货资料,场主花了十几分钟,终于找到了深埋网盘底部的一整套完整算法教程视频。

691
来自专栏数据的力量

一个数据挖掘大牛,用程序算法做人生选择

1534
来自专栏新智元

【立委科普】自然语言parsers是揭示语言奥秘的LIGO式探测仪

腥风血雨的中外股市震荡,并不能遮盖科技革命对人类生活的震撼效应和光芒。最近科学和技术领域分别出了两个大事件:一是科学界用LIGO探测仪探测到了很多亿年前的黑...

3245
来自专栏华章科技

当年发明hello, world的大神,后来怎么样了?

导读:对于程序员来说,"hello, world"就像小学一年级数学课上的1+1,一个简单而舒适的起点。也正如字面意思所说,它将引导你开启一个新的世界,一个等着...

2132
来自专栏罗超频道

三星和魅蓝同一天发新机,却讲了两个截然不同的故事

8月23日晚,三星年度双旗舰GalaxyNote 8发布,成为安卓圈的大事件,市场给予Note 8高度关注,以至于当天白天发布的魅蓝Note 6,竟显得有些落寞...

2604
来自专栏ACM算法日常

想去硅谷、BAT工作?算法面试通关攻略在这里

一整套视频还是很有价值的,我这几天也看了最新的几集,对于新手比较友好,对于有一定经验的可能觉得简单。

2632
来自专栏华章科技

用数据告诉你:巴菲特、女神和红酒的关系

安妮•海瑟薇凭借电影”星际穿越”成为好莱坞女神。可是谁知道她还能直接影响巴菲特的财富?每次她出现在头条,巴菲特的旗舰公司股价就会上涨。以当年海瑟薇在奥斯卡颁奖礼...

983
来自专栏牛客网

百度ML/DL方向面经

1960
来自专栏PPV课数据科学社区

一个数据挖掘大牛,用程序算法做人生选择

每年一到要找工作的时候,我就能收到很多人给我发来的邮件,总是问我怎么选择他们的 offer,去腾讯还是去豆瓣,去外企还是去国内的企业,去创业还是去考研,来北京还...

4199

扫码关注云+社区

领取腾讯云代金券