在这里,我们再说一说DLA。
Jetson AGX Xavier具有两个NVIDIA深度学习加速器 (DLA)引擎,如图5所示,它们减轻了对固定功能卷积神经网络(CNN)的推理。这些引擎提高了能源效率,释放了GPU来运行用户所执行的更复杂的网络和动态任务。
NVIDIA DLA硬件体系结构是开源的,可从NVDLA.org获得。每个DLA最多具有5 TOPS INT8或2.5 TFLOPS FP16性能,功耗仅为0.5-1.5W。DLA支持加速的CNN层,例如卷积,解卷积,激活函数,最小/最大/平均池,局部响应规范化和完全连接的层。
图:深度学习加速器(DLA)架构框图
DLA硬件包含以下组件:
开发人员可以使用TensorRT 对DLA引擎进行编程,以在网络上执行推理,包括对AlexNet,GoogleNet和ResNet-50的支持。当某些层, 无法在DLA上运行的话, TensorRT就会启用以GPU运行这些层的备用(fallback)方案.
在DLA上运行时的通用限制(适用于所有层)
注意:DLA的批次大小是除索引大小以外所有索引大小的乘积 CHW 大小。例如,如果输入尺寸为 NPQRS,有效的批量大小是 N * P。
一般情况,要使用DLA,是通过对TensorRT的使用。对此,TensorRT的文档里介绍得很清楚,大家可以直接浏览TensorRT的文档:
https://docs.nvidia.com/deeplearning/tensorrt/developer-guide/index.html#dla_topic
(复制链接在电脑浏览器打开)
好了,大家就多看看NV的官方文档吧,资料还是蛮多的。
另外,我们在NVIDIA官方论坛上发现有人反映:Why run slower when use DLA and GPU together , even if the DLA model was transfromed all in DLA?
针对这个情况,NVIDIA的建议是:Some memory transfer or copy is required when running the TensorRT. Have you profile the application? You should find some memory related job with the profiler.
好了,大家就多看看NV的官方文档吧,资料还是蛮多的。有技术问题直接在NVIDIA 官方论坛上提问:https://forums.developer.nvidia.com/c/agx-autonomous-machines/jetson-embedded-systems/70