英伟达发布 TensorRT 3 可编程推理加速器，比起 CPU 能实现高达 40 倍吞吐率

AI研习社

发布于 2018-03-19 11:25:58

1.1K0

发布于 2018-03-19 11:25:58

文章被收录于专栏：AI研习社

北京时间 9 月 26 日，在英伟达 GPU 技术峰会上，英伟达创始人兼 CEO 黄仁勋正式发布 TensorRT 3 神经网络推理加速器。据官方介绍，TensorRT 3 能极大改善处理性能，削减从云到边缘设备（自动驾驶汽车、机器人等）的推理开销。

TensorRT 3 是在 Volta GPU 实现最优推理性能的关键，比起 CPU 它能实现高达 40 倍的吞吐量，时延在 7ms 之内。目前，对于英伟达开发者计划成员，现在有针对 Tesla GPU (P4, P100, V100) 和 Jetson 嵌入式平台的 TensorRT 3 提供免费下载。

关于 TensorRT

据AI研习社了解，英伟达 TensorRT 是一种高性能神经网络推理引擎，用于在生产环境中部署深度学习应用程序。应用有图像分类，分割和目标检测，提供的帧 / 秒速度比只有 CPU 的推理引擎高 14 倍。

TensorRT 是世界上第一款可编程推理加速器，能加速现有和未来的网络架构，TensorRT 可编译到广泛的目标 CUDA GPU 中，从 120 TOPS 到 1 TOPS，从 250 瓦到低于 1 瓦。

它包含一个为优化在生产环境中部署的深度学习模型而创建的库，可获取经过训练的神经网络（通常使用 32 位或 16 位数据），并针对降低精度的 INT8 运算来优化这些网络。

为何 TensorRT 3 有着无可比拟的地位，他提到了以下几点：

一是网络设计呈爆发性增长：AI 推理平台必须具备可编程性才能运行种类繁多且不断演进的网络架构；新的架构、更深的网络、新的分层设计会继续提升 CNN 的性能。
二是智能机器呈爆发性增长：AI 会将智能诸如到 2000 万台云服务器、上亿台汽车和制造机器人中；最终，以万亿计的物联网设备和传感器将智能地监测一切，从心率和血压监测，到需维修设备的震动监测；AI 推理平台必须可扩展，以解决海量计算的性能、公号和成本需求。

TensorRT 3 新的亮点如下：

相较 Tesla P100，在 Tesla V100 上能实现 3.7 倍的加速，时延在 7ms 之内
在 Tesla V100 上进行优化和配置 TensorFlow 模型时，比起 TensorFlow 框架能实现 18 倍的推理加速
轻松使用 Python API 接口，生产力得到极大改进

据黄仁勋现场介绍，

TensorRT3 的性能非常卓越，运行在 Volta 上的 TensorRT3 在图像分类方面比最快的 CPU 还要快 40 倍，在语言翻译方面则要快 140 倍。

另外，现场他还提到，神经网络的响应时间或处理延时会对服务质量造成直接影响，运行在 V100 上的 TensorRT 在处理图像是可实现 7ms 的延时，在处理语音是延时不到 200ms，这是标准云服务的理想目标，单靠 CPU 是无法实现的。

TensorRT3 能支持 Caffe2、mxnet、PaddlePaddle、Pytorch、TensorFlow、theano、Chainer 等所有的深度学习框架，将 TensorRT 3 和英伟达的 GPU 结合起来，能在所有的框架中进行超快速和高效的推理传输，支持图像和语言识别、自然语言处理、可视化搜索和个性化推荐等 AI 服务。

AI 新纪元

另外，在演讲中，黄仁勋提到，现在已是计算新纪元，包括 TensorRT 在内的 NVIDIA 多个平台已被 BAT 等多家科技巨头采用：

目前，NVIDIA TensorRT 已经被 BAT、科大讯飞、京东所采用；
除了 TensorRT，NVIDIA Tesla V100 AI 平台已被 BAT、华为、浪潮和联想在内的中国领军 IT 公司采用；
NVIDIA AI 城市平台已被阿里巴巴、海康威视、大华和华为所采用，以解决最大规模的 AI 和推理难题之一；

另外，黄仁勋在现场正式发布全球首款自主机器处理器 Xavier，这是迄今为止最复杂的片上系统，将于 18 年第一季度向早期接触的合作伙伴提供，在 18 年第四季度全面推出。这个处理器的发布将揭开人工智能时代新篇章。

除了 Xavier，他们也发布了一个虚拟机器人仿真环境 Isaac Lab。谈及为何要创造这个自主机器系统，他提到，

教机器人与外部世界交互和执行复杂的任务一直是一个未解决的难题，但相信随着深度学习和 AI 的突破，这个问题最终必将得到解决。在机器人学习执行具体任务的过程中，他们可能会对周边的事物造成损坏，并且需要很长的训练周期。因此，需要创造一个可供机器人学习的虚拟世界——看起来像真实世界，并遵守物理学定律，机器人可以在其中超实时地学习。

在现场，他也强调，NVIDIA 将会全力推进 “统一架构”CUDA GPU 计算。通过 Inception 计划，将支持 1900 家初创公司创建 AI 未来。

究竟 NVIDIA 能让 AI 跨进怎样的未来，拭目以待！

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2017-09-27，如有侵权请联系 cloudcommunity@tencent.com 删除

机器人