前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >提问黄仁勋:5年内GPU定会赢过TPU,中国计算机产业已居世界一流

提问黄仁勋:5年内GPU定会赢过TPU,中国计算机产业已居世界一流

作者头像
新智元
发布2018-03-22 10:34:54
1K0
发布2018-03-22 10:34:54
举报
文章被收录于专栏:新智元新智元

【新智元导读】英伟达创始人黄仁勋在9月26日GTC北京的主旨演讲中,隆重介绍了NVIDIA Tensor RT 3。今天英伟达的官方博客则着重介绍了NVIDIA深度学习加速器(NVDLA)这一免费开源架构。在会后新智元对黄仁勋的专访中,黄仁勋谈到了谷歌TPU与Tensor RT 3 的区别,并表示中国整个计算机产业的技术水平已经是世界一流。

GPU 不光能做 Tensor 的处理,还能做很多其他任务

2017年5月GTC 美国的大会上,黄仁勋宣布,将开源 Xavier DLA 供所有开发者使用、修改。初期版本将在 7 月开放,完整版本将于 9 月公开。9月26日GTC 北京,黄仁勋只提到了Xavier但是没有提到DLA,但是27日,英伟达官方博客就介绍了DLA,并且将代码都公布到了Github上。

NVIDIA深度学习加速器(NVDLA)是一个免费开源架构,可以促进深度学习加速器设计方法的标准化。通过其模块化架构,NVDLA具备可拓展性、高度可配置性,可简化集成和便携度。其硬件可支持各种loT设备。作为英伟达Open NVDLA许可证下的开源项目,所有的软件、硬件、文档都可在GitHub上找到。

详细介绍地址:http://nvdla.org/primer.html

开源地址:https://github.com/nvdla

不少人评论称,黄教主又有了新的信仰——开源。

9月26日GTC 北京首场演讲,黄仁勋赚足了票房,被大家称为英伟达最称职的推销员。

黄仁勋在主旨演讲中隆重介绍了NVIDIA Tensor RT 3——这是一款可编程的AI 推理加速器。支持所有的框架,比如Caffe,Pytorch和TensorFlow。

在会后的专访环节,接受媒体专访的黄仁勋比上午演讲时更为放松和自然。他首先问了大家一个问题:“在国内大家是不是都叫我老黄”?

“破冰”问题之后,黄仁勋开始与众多媒体同仁畅聊起来。不可避免地,他被要求对CPU进行评价。“狡猾”的“老黄”解释说,其实GPU不会替代CPU,只是加速器,但在专门问题上性能超过CPU十倍甚至百倍。他也认为,最完美的架构是CPU+GPU。在现场他也承诺,英伟达不会做通用处理器,但是会在某些专门领域,将GPU性能做到极致。

在回答记者提问的大部分时间中,黄仁勋都保持上图的坐姿,期间会偶尔坐进沙发中。新智元提问:谷歌的TPU与英伟达的Tensor RT 3 有何区别?听到这一问题后,也许是为了显示出更强大的气场,黄仁勋从沙发中重新坐到了旁边的扶手上。

黄仁勋严肃地说:“首先现在世界上只有一款TPU,就是谷歌的,它只能做TensorFlow,Tensor的处理。而我们的GPU不光能做Tensor的处理,我们还能做很多其他的任务。所以比如说视频的编解码,还有一些图像的处理等等,我们都可以做。”

他说:“我给你举一个例子吧,比如说今天上午我演示的在《权利的游戏》这个电视连续剧里头我们的GPU就可以做视频的解码,并且进行推理,推理之后做搜索。所以我们GPU能做的事情远远多过TPU。正是因为我们有TensorRT3,我们GPU的架构又是完全灵活的可编程的,所以我们可以支持世界上任何一种人工智能框架,比如说亚马逊的,或者百度的Paddle Paddle,还有Facebook用的touch,以及微软用的CNTK。如果让我做一个长远的预测的话,我们认为,事实上,能够针对深度学习进行优化的GPU是能够获得最大成功的。”

为什么是GPU会获得最大的成功?黄仁勋解释说:“这是因为,它是非常灵活的,因为它的灵活,所以它的市场机会就会多,因为市场机会多,所以研发的预算也多,整个生态系统也就有钱了。 所以再举一个例子,大家还记得以前我们用的傻瓜型的手机吗?现在的智能手机相比谁更成功呢?其实从它们的功能角度你就可以看到,这也就是TPU和GPU的比较。智能手机的价值非常高,有了智能手机,事实上它不光有电话的功能,它还有照相机的功能,甚至对某些人来说还可以像电脑一样使用,可以当做录音笔等等。但是如果是通用型的话,这就更难了。因为你要看一下它电池的续航的寿命,它的尺寸的问题,不能做的太大,价格又不能定的太高,通话质量要一定好。但是如果以上的问题都能解决的话,通用型的手机肯定是更好的。”

随后,在回答新智元的第二个问题:“怎样看未来5到10年在人工智能时代,华人和华人企业所扮演的角色”时,黄仁勋说:“中国的计算机科学的技术水平,是全球一流的。我认为在中国,腾讯它不光是一家优秀的中国的互联网公司,它也是世界一流的公司。像阿里巴巴也是如此。百度我们也不认为它只是中国的一家搜索的公司,它是世界一流的公司。前面提到的李飞飞也是我的好朋友,在我的眼里,我绝对不把她局限为一个优秀的华人AI科学家,我认为她是世界顶级的人工智能的科学家。还有像陆奇。所以,其实中国的计算机整个产业的技术水平,已经是世界一流了,所以已经不是局限于某一个国别的范围了。

详解 NVDLA 五大特点

详细说来,这一开源架构有以下五个特点:

开源:在Github上进行开发,鼓励开发者参与。

完整的解决方案:拥有全套的 Verilog 和 C-model, Linux 驱动, test 基准 和 test 工具, kernel- 和 user-mode 软件 以及软件开发工具包。 便于其他操作系统采纳。

可扩展: 非常适合扩展到大范围的IoT设备上。

标准的硬件架构:基于Xavier,也就是英伟达为自动化产品和其他更多业务设计的世界上第一个自动处理器。

深度学习理解力:智能、高效,准备好与大量英伟达支撑的解决方案共同工作。

深度学习推理的大部分计算工作是基于数学运算的,其中大部分可以分为四个部分:卷积,激活,池化,和归一化。这些操作具有一些特点,使它们特别适合于专用硬件实现:它们的存储器访问模式是高度可预测的,并且它们很容易并行化。

NVIDIA®深度学习加速器(NVDLA)项目推动了一种标准化的开放架构,以解决推理的计算需求。 NVDLA架构既可扩展又高度可配置,模块化的设计保持了灵活性并简化集成。标准化的深度学习能加速推动大多数深度学习网络的互操作性,有助于规模化地推动机器学习的统一增长。

NVDLA硬件提供了一个简单,灵活,强大的推理加速解决方案。它支持各种水平的性能表现,并可轻松扩展应用范围,从较小的,成本敏感的物联网(IoT)设备到更大的、性能导向的IoT设备。 NVDLA将作为基于开放行业标准的一组IP核模型提供:Verilog 模型是RTL形式的综合和模拟模型,TLM SystemC 模拟模型可用于软件开发,系统集成和测试。 NVDLA软件生态系统包括一个设备内软件堆栈(部分开放源代码版本),一个完整的训练基础架构,用于构建包含深度学习的新模型,以及将现有模型转换为可由设备使用的形式的解析器软件。

硬件架构

NVDLA架构可以在两种工作模式下进行编程:独立模式和融合模式。

1. 独立。当独立运行时,每个功能块都配置为执行的时间和任务,每个块都在其分配的任务上工作(类似于深度学习框架中的独立层)。独立操作开始和结束,分配的块执行存储器到存储器操作,进出主系统存储器或专用SRAM存储器。

2. 融合。融合操作类似于独立操作,但是一些块可以组装成管道。通过绕过存储器的往返来改善性能,而不是通过小型FIFO来相互通信(即,卷积核心可以将数据传递到单个数据点处理器,该数据点处理器可以将数据传递给平面数据处理器,反过来交叉通道数据处理器)。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-09-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档