最近遇到好些用户在使用NVIDIA Xavier 的时候遇到性能没达到预期的情况:
我们已经对NVIDIA Xavier做了很多次介绍:
NVIDIA霸气放“价”,AGX Xavier让你打造更接地气的AI产品
用Matlab和NVIDIA AGX Xavier实现缺陷产品检测
其实对于Xavier的性能到底可以跑成什么样子,这里有一些文章:
NVIDIA Jetson Xavier性能到底有多强?这篇评测告诉你!
本篇想试图对于Xavier上的优化方式和技巧做一些探讨,希望能给大家一些启示。
1. 你的Xavier开启了火力全开模式了么?
参考:让NVIDIA Jetson AGX Xavier火力全开的秘密
2. 请记住每个产品都有自己的定位和用途的。我们必须要了解和掌握Xavier的特点,才能将其性能发挥到极致!
我们再来看一下Xavier的特性:
所以你看到Xavier是有很强的FP16和INT8的性能,而FP32的性能并没有优势。所以如果你用台式机的GPU FP32性能来跟Xavier相比,Xavier是比较吃亏的。
Xavier有Tensor Core。
Tensor Core有很多好处:
Intel为什么强调NVIDIA Tensor Core GPU非常适合推理
新年第一课:看NVIDIA大神们如何评价Tensor Core?
注意,NVIDIA 计算能力7.0、7.2和7.5的GPU卡都具备Tensor Core。其中7.0是第一代的TensorCore(只有FP16能力),比如Tesla V100; 7.2(Xavier)和7.5(现在的大量的Turing卡)是第二代的,有FP16,INT8,INT4加速.
Xavier 具备深度学习加速器 NVDLA,全称 NVIDIA DeepLearning Accelerator,以推动在定制硬件设计中采用高效的 AI 推理。在英伟达的开发套件 Jetson AGX Xavier 中,它能为 AI 模型提供 7.9 TOPS/W 的最佳峰值效率。
问题来了,我如何让Xavier发挥这些特定的优势呢?
TensorRT请了解一下!
我们之前也讲过了很多如何使用TensorRT
边缘计算笔记(一): Jetson TX2上从TensorFlow 到TensorRT
边缘计算笔记(二): 从tensorflow生成tensorRT引擎的方法
边缘计算笔记(三):从Tensorflow生成TensorRT引擎的方法(完结篇)
也建议初学者可以在百度或者Google上搜索TensorRT,可以看到别人写的教程或者代码来学习。
以下资源,是我推荐给大家看的:
TensorRT Sample:
https://docs.nvidia.com/deeplearning/sdk/tensorrt-sample-support-guide/index.html
https://jkjung-avt.github.io/tf-trt-models/
有人会问:用Jetpack刷机后TensorRT装在哪里了?
另外对于搞视频智能分析的用户,可以多了解一下Deepstream。我们自己用Xavier 跑 DeepStream, 用 int8 特性,一次给 9 个 H.265 高清 Video,每个都能跑到 15 fps 左右,总共帧数可以到 120+。
关于DeepStream我们也讲了很多了:
NVIDIA Deepstream 4.0笔记(五):仓储物流场景应用
NVIDIA Deepstream 4.0笔记(四):工业检测场景应用