我如何能使用Jetson AGX Xavier上的DLA

GPUS Lady

发布于 2021-07-12 17:00:31

1.9K0

发布于 2021-07-12 17:00:31

文章被收录于专栏：GPUS开发者GPUS开发者

今天有人问：

在这里，我们再说一说DLA。

Jetson AGX Xavier具有两个NVIDIA深度学习加速器（DLA）引擎，如图5所示，它们减轻了对固定功能卷积神经网络（CNN）的推理。这些引擎提高了能源效率，释放了GPU来运行用户所执行的更复杂的网络和动态任务。

NVIDIA DLA硬件体系结构是开源的，可从NVDLA.org获得。每个DLA最多具有5 TOPS INT8或2.5 TFLOPS FP16性能，功耗仅为0.5-1.5W。DLA支持加速的CNN层，例如卷积，解卷积，激活函数，最小/最大/平均池，局部响应规范化和完全连接的层。

图：深度学习加速器（DLA）架构框图

DLA硬件包含以下组件：

卷积核心–优化的高性能卷积引擎。
单数据处理器–用于激活功能的单点查找引擎。
平面数据处理器–用于池化的平面平均引擎。
通道数据处理器–用于高级归一化功能的多通道平均引擎。
专用内存和数据整形引擎–用于张量整形和复制操作的内存到内存转换加速。

开发人员可以使用TensorRT 对DLA引擎进行编程，以在网络上执行推理，包括对AlexNet，GoogleNet和ResNet-50的支持。当某些层, 无法在DLA上运行的话, TensorRT就会启用以GPU运行这些层的备用(fallback)方案.

在DLA上运行时的通用限制（适用于所有层）

支持的最大批处理大小为32。
用于构建的尺寸必须在运行时使用。
DLA支持的最大权重大小为512 MB。
DLA网络最多只能支持1 GB的中间张量数据。作为DLA图的输入和输出的张量不计入此限制。TensorRT将拒绝在未启用GPU fallback功能的情况下建立的超出此限制的网络。
DLA在最左边的维度上支持通配符维度，只要 min, max和 opt 配置文件的值相等。
如果违反任何限制，TensorRT可以将DLA网络划分为多个部分，并且 Gpu Fallback已启用。否则，TensorRT可能会发出错误并回退。有关更多信息，请参阅GPU后备模式。
由于硬件和软件内存的限制，最多可以同时使用4个DLA可加载项。

注意：DLA的批次大小是除索引大小以外所有索引大小的乘积 CHW 大小。例如，如果输入尺寸为 NPQRS，有效的批量大小是 N * P。

一般情况，要使用DLA，是通过对TensorRT的使用。对此，TensorRT的文档里介绍得很清楚，大家可以直接浏览TensorRT的文档：

https://docs.nvidia.com/deeplearning/tensorrt/developer-guide/index.html#dla_topic

（复制链接在电脑浏览器打开）

好了，大家就多看看NV的官方文档吧，资料还是蛮多的。

另外，我们在NVIDIA官方论坛上发现有人反映：Why run slower when use DLA and GPU together , even if the DLA model was transfromed all in DLA?

针对这个情况，NVIDIA的建议是：Some memory transfer or copy is required when running the TensorRT.　Have you profile the application? You should find some memory related job with the profiler.

好了，大家就多看看NV的官方文档吧，资料还是蛮多的。有技术问题直接在NVIDIA 官方论坛上提问:https://forums.developer.nvidia.com/c/agx-autonomous-machines/jetson-embedded-systems/70

本文参与腾讯云自媒体分享计划，分享自微信公众号。

原始发表：2021-05-31，如有侵权请联系 cloudcommunity@tencent.com 删除

深度学习