前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >怎样用英伟达TensorRT优化TensorFlow Serving的性能?谷歌工程师一文详解

怎样用英伟达TensorRT优化TensorFlow Serving的性能?谷歌工程师一文详解

作者头像
量子位
发布2019-04-23 15:00:31
3.3K0
发布2019-04-23 15:00:31
举报
文章被收录于专栏:量子位量子位
文 / Guangda Lai、Gautam Vasudevan、Abhijit Karmarkar、Smit Hinsu 量子位 转载自 TensorFlow公众号

怎样用TensorFlow Serving系统,结合英伟达的Tensor RT,实现高性能深度学习推理?

TensorFlow团队的工程师们最新发布的一篇教程,就是要一步步教会你。

量子位经授权转载,如下~

TensorFlow Serving 是用于机器学习模型的高性能灵活服务系统,而 NVIDIA TensorRT 是实现高性能深度学习推理的平台,通过将二者相结合,用户便可获得更高性能,从而轻松实现 GPU 推理。

TensorFlow 团队与 NVIDIA 合作,在 TensorFlow v1.7 中首次添加了对 TensorRT 的支持。此后,我们一直密切合作,共同改进 TensorFlow-TensorRT 集成(称为 TF-TRT)。TensorFlow Serving 1.13 现已实现这种集成,TensorFlow 2.0 很快也会进行集成。

在 之前的文章 中,我们介绍了如何借助 Docker 使用 TensorFlow Serving。在本文中,我们将展示以同样的方式运行经 TF-TRT 转换的模型有多简单。与之前一样,我们尝试在生产环境中部署 ResNet 模型。下方所有示例均在配备 Titan-V GPU 的工作站上运行。

注:ResNet 链接

https://github.com/tensorflow/models/tree/master/official/resnet

在 GPU 上利用 TensorFlow Serving 部署 ResNet

在这项练习中,我们仅下载 经过预训练的 ResNet SavedModel:

$ mkdir /tmp/resnet

$ curl -s https://storage.googleapis.com/download.tensorflow.org/models/official/20181001_resnet/savedmodels/resnet_v2_fp32_savedmodel_NHWC_jpg.tar.gz | tar --strip-components=2 -C /tmp/resnet -xvz

$ ls /tmp/resnet

1538687457

注:经过预训练的 ResNet 链接

https://github.com/tensorflow/models/tree/master/official/resnet#pre-trained-model

在之前的文章中,我们展示了如何使用 TensorFlow Serving CPU Docker 图像提供模型。在这里,我们运行 GPU Docker 图像(请查看 此处 了解相关说明),以借助 GPU 提供并测试此模型:

$ docker pull tensorflow/serving:latest-gpu

$ docker run --rm --runtime=nvidia -p 8501:8501 --name tfserving_resnet \

-v /tmp/resnet:/models/resnet -e MODEL_NAME=resnet -t tensorflow/serving:latest-gpu &

… server.cc:286] Running gRPC ModelServer at 0.0.0.0:8500 …

… server.cc:302] Exporting HTTP/REST API at:localhost:8501 …

$ curl -o /tmp/resnet/resnet_client.py https://raw.githubusercontent.com/tensorflow/serving/master/tensorflow_serving/example/resnet_client.py

$ python /tmp/resnet/resnet_client.py

Prediction class:286, avg latency:18.0469 ms

注:此处 链接

https://www.tensorflow.org/serving/docker#serving_with_docker_using_your_gpu

此 docker run 命令会启动 TensorFlow Serving 服务器,以提供 /tmp/resnet 中已下载的 SavedModel,并在主机中开放 REST API 端口 8501。resnet_client.py 会发送一些图像给服务器,并返回服务器所作的预测。现在让我们终止 TensorFlow Serving 容器的运行,以释放所占用的 GPU 资源。

$ docker kill tfserving_resnet

注:REST API 链接

https://www.tensorflow.org/tfx/serving/api_rest

利用 TF-TRT 转换和部署模型

现在,我们有了工作模型。为了享受 TensorRT 带来的好处,我们需要在 TensorFlow Serving Docker 容器内运行转换命令,从而将此模型转换为使用 TensorRT 运行运算的模型:

$ docker pull tensorflow/tensorflow:latest-gpu

$ docker run --rm --runtime=nvidia -it -v /tmp:/tmp tensorflow/tensorflow:latest-gpu /usr/local/bin/saved_model_cli \

convert --dir /tmp/resnet/1538687457 --output_dir /tmp/resnet_trt/1538687457 --tag_set serve \

tensorrt --precision_mode FP32 --max_batch_size 1 --is_dynamic_op True

在这里,我们运行了 saved_model_cli 命令行工具,其中内置了对 TF-TRT 转换的支持。—dir 和 —output_dir 参数会指示 SavedModel 的位置以及在何处输出转换后的 SavedModel,而 —tag_set 则指示 SavedModel 中要转换的图表。随后,我们在命令行中传递 tensorrt 并指定配置,明确指示其运行 TF-TRT 转换器:

—precision_mode 指示转换器需使用的精度,目前其仅支持 FP32 和 FP16

—max_batch_size 指示输入的批次大小上限。此转换器要求将由 TensorRT 处理的所有张量将其首个维度作为批次维度,而该参数则指示推理过程中会产生的最大值。若已知推理过程中的实际批次大小上限且该值与之匹配,则转换后的模型即为最优模型。请注意,转换后的模型无法处理批次规模大于此处所指定大小的输入,但可处理批次规模更小的输入

—is_dynamic_op 指示在模型运行时进行实际转换。原因在于,在进行转换时,TensorRT 需要明确所有形状。对于本例中使用的 ResNet 模型,其张量没有固定的形状,因此我们需要此参数

注:saved_model_cli 链接

https://www.tensorflow.org/guide/saved_model#cli_to_inspect_and_execute_savedmodel

现在,我们只需为模型指定正确的目录,便可利用 Docker 提供经 TF-TRT 转换的模型,这与之前一样简单:

$ docker run --rm --runtime=nvidia -p 8501:8501 --name tfserving_resnet \

-v /tmp/resnet_trt:/models/resnet -e MODEL_NAME=resnet -t tensorflow/serving:latest-gpu &

… server.cc:286] Running gRPC ModelServer at 0.0.0.0:8500 …

… server.cc:302] Exporting HTTP/REST API at:localhost:8501 …

向其发送请求:

$ python /tmp/resnet/resnet_client.py

Prediction class:286, avg latency:15.0287 ms

最后,我们终止容器的运行:

$ docker kill tfserving_resnet

我们可以看到,使用 TensorFlow Serving 和 Docker 生成经 TF-TRT 转换的模型与提供一般模型一样简单。此外,以上为展示内容,其中的性能数字仅适用于我们所使用的模型和运行本示例的设备,但它的确展现出使用 TF-TRT 所带来的性能优势。

TensorFlow 2.0 发布在即,TensorFlow 团队和 NVIDIA 正在共同努力,以确保 TF-TRT 能在 2.0 中流畅运行。

如需了解最新信息,请查看 TF-TRT GitHub 代码库 :https://github.com/tensorflow/tensorrt

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-03-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 文 / Guangda Lai、Gautam Vasudevan、Abhijit Karmarkar、Smit Hinsu 量子位 转载自 TensorFlow公众号
相关产品与服务
容器服务
腾讯云容器服务(Tencent Kubernetes Engine, TKE)基于原生 kubernetes 提供以容器为核心的、高度可扩展的高性能容器管理服务,覆盖 Serverless、边缘计算、分布式云等多种业务部署场景,业内首创单个集群兼容多种计算节点的容器资源管理模式。同时产品作为云原生 Finops 领先布道者,主导开源项目Crane,全面助力客户实现资源优化、成本控制。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档