首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

充分利用NVIDIA Nsight开发工具发挥Jetson Orin的最大潜力

Orin 架构以行业领先的性能为下一代边缘 AI 系统提供动力,该系统由 12 个 ARM Cortex A78 内核和 2 MB 三级缓存, NVIDIA Ampere 架构 GPU 提供 16 个流式多处理器或每个 SM 128 个 CUDA 内核的 SM,Orin 还具有用于工作负载的专用加速器,用于视频缩放、图像处理,还有光流加速器即OFA、2 个 JPEG 解码器、2 个深度学习加速器单元或支持张量 RT 的 DLA,用于深度学习操作,还有可编程视频加速器(PVA)和视频编解码引擎。Orin 使用高带宽 LPDDR5 内存,并具有一组丰富的 IO 连接选项,包括 22 个 PCI Express 通道、4 个千兆以太网连接器和 16 个 CSI 通道。凭借所有这些强大的功能,Jetson Orin 完全有能力应对边缘 AI 场景。

04

NVIDIA Nsight系统

NVIDIA Nsight系统是一种低开销的性能分析工具,旨在为开发人员提供优化软件所需的见解。该工具中可视化了无偏活动数据,以帮助用户调查瓶颈,避免推断出假阳性,并以更高的性能提升可能性进行优化。用户将能够识别问题,例如GPU饥饿,不必要的GPU同步,不足的CPU并行化,甚至是目标平台上所有CPU和GPU上出乎意料的昂贵算法。它旨在跨多种NVIDIA平台扩展,例如:大型Tesla多GPU x86服务器,Quadro工作站,启用Optimus的笔记本电脑,带有Tegra + dGPU multi-OS的DRIVE设备以及Jetson。NVIDIA Nsight Systems甚至可以提供有关PyTorch和TensorFlow等深度学习框架的行为和负载的宝贵见解;允许用户调整其模型和参数以提高整体单GPU或多GPU利用率。

03

关于Jetson AGX Xavier常见问题汇总

NVIDIA Jetson AGX Xavier是Jetson平台的高端产品,这是一台用于自主机器的人工智能计算机。在一个紧凑的100x87mm模块中,GPU的性能最高可达到32兆字节(top)的峰值计算。Jetson AGX Xavier为计算密度、能源效率和可部署到边缘的人工智能推理能力设置了一个新的标准,使具有端到端自主能力的下一级智能机器成为可能。Jetson专注于性能、效率和可编程性,利用深度学习和计算机视觉为世界上许多最先进的机器人和自主机器背后的人工智能提供动力。Jetson AGX Xavier是为机器人、无人机和其他需要最大限度计算的自动机器而设计的,这些机器在边缘运行现代人工智能工作负载,并解决制造、物流、零售、服务、农业等领域的问题。Jetson AGX Xavier也适用于智能城市应用和便携式医疗设备。

02

【连载】OpenAITriton MLIR 第二章 Batch GEMM benchmark

通过前两章对于triton的简单介绍,相信大家已经能够通过从源码来安装triton,同时通过triton提供的language前端写出自己想要的一些计算密集型算子。这章开始,我们通过构建一套比较标准的batch gemm的benchmark,来看看目前这些主流的代码生成工具,高性能模板库,与厂商提供的vendor library的差距。因为只有明确了目前的差距,后期关于针对性的优化才能做到点上。这一章,我将使用一个batch的gemm作为例子,来看看triton目前对其的优化能力。选batch gemm的原因是因为目前的LLM中不可避免会有对应的attention操作,而attention操作中,核心的计算密集型算子就是batch的gemm,如果你能够对batch的gemm有一个很好的优化思路,那么在MLSys中大部分的算子优化类的工作对你来说将不会显得那么无从下手。

01
领券