专栏首页ATYUN订阅号NVIDIA发布了TensorRT 4,极大加速神经机器翻译

NVIDIA发布了TensorRT 4,极大加速神经机器翻译

编译:chux

出品:ATYUN订阅号

NVIDIA发布了TensorRT 4,其新功能可加速GPU上神经机器翻译(NMT)应用的推断。

神经机器翻译为大量消费应用提供基于AI的文本翻译,包括网站,道路标志,外语字幕等。

TensorRT是NVIDIA的可编程推理加速器,可帮助优化和生成运行时引擎,以便将深度学习推理应用程序部署到生产环境中。谷歌的神经机器翻译(GNMT)模型与仅使用CPU的平台相比,使用TensorRT在Tesla V100 GPU上的推理速度提高了60倍。

TensorRT 4版本支持新的RNN层,如Batch MatrixMultiply,Constant,Gather,RaggedSoftMax,Reduce,RNNv2和TopK。这些层允许应用程序开发人员使用TensorRT轻松加速NMT模型中计算密集程度最高的部分。

NMT详细示例图。编码器、发电机和波束调整作为三个TensorRT引擎。在橙色缓冲区中,由用户分配。在GPU和CPU上分别实现绿色和蓝色的层。

在性能方面,当在数据写入器基准测试组件上测试光束搜索时,系统在batch=1的推理期间执行的速度比仅用CPU快170倍,比batch=64的速度快100倍。

NVIDIA的可编程推理加速器TensorRT帮助优化和生成运行时引擎,将深度学习推理应用部署到生产环境中。

与只使用CPU的平台相比,GNMT模型在特斯拉V100 GPU上使用TensorRT的速度更快。

本文分享自微信公众号 - ATYUN订阅号(atyun_com)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-07-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 超级计算模拟和机器学习:使用更加清洁高效的工作流体发电

    在传统的蒸汽动力装置中,剩余的水必须与发电蒸汽分开。这一过程限制了效率,而在早期的发电厂,可能会发生剧烈的变化,导致爆炸。在20世纪20年代,Mark Bens...

    AiTechYun
  • 利用AI 生成商标

    Logojoy这样的初创公司会根据需要,使用人工智能来创建数千条横幅和品牌元素。但在Arxiv.org上发表的一篇新论文中,荷兰马斯特里赫特大学(Maastri...

    AiTechYun
  • 使用Keras建立Wide & Deep神经网络,通过描述预测葡萄酒价格

    你能通过“优雅的单宁香”、“成熟的黑醋栗香气”或“浓郁的酒香”这样的描述,预测葡萄酒的价格吗?事实证明,机器学习模型可以。

    AiTechYun
  • 一起来学matlab-matlab学习笔记10_7 数值数据类型以及特殊函数

    本文为matlab自学笔记的一部分,之所以学习matlab是因为其真的是人工智能无论是神经网络还是智能计算中日常使用的,非常重要的软件。也许最近其带来的一...

    DrawSky
  • Git/SourceTree·查看单个文件提交记录

    陈满iOS
  • 对你没有看错!不到 10 行代码完成抖音热门视频的爬取!

    最近研究了一下抖音的爬虫,目前实现了热门话题和热门音乐下面所有相关视频的爬取,并且我已经将该爬虫打包成了一个 Python 库并发布,名称就叫做 douyin,...

    崔庆才
  • MySQL中group_concat()函数的排序方法

    group_concat()函数的参数是可以直接使用order by排序的。666。。下面通过例子来说明,首先看下面的t1表。

    DencyCheng
  • linux如何实现一键部署nfs过程图解

    砸漏
  • angularjs学习第九天笔记(指令作用域【隔离作用域】研究)

    小小许
  • angularjs学习第九天笔记(指令作用域【隔离作用域】研究)

    小小许

扫码关注云+社区

领取腾讯云代金券