3月21日,英伟达宣布推出四款推理平台(Inference Platforms),所谓“推理平台”,大家可以理解成是一整套构建AI应用程序的软硬件综合解决方案。
英伟达的这四款推理平台专门针对各种快速涌现的生成式AI应用程序进行了特别优化,可以帮助开发人员快速构建各种由AI驱动的应用程序,提升工作效率。
这些平台将英伟达的全栈推理软件与最新的NVIDIA Ada、NVIDIA Hopper和NVIDIA Grace Hopper处理器(严格来说,它们应该被视为AI处理器,而不是传统意义上的显卡和GPU)紧密结合在一起,包括在当天新发布的NVIDIA L4 Tensor Core GPU和NVIDIA H100 NVL GPU。
这四个推理平台分别对应一个针对特定AI生成式应用领域优化的NVIDIA GPU以及专门的软件,具体包括:
一、用于AI视频的NVIDIA L4(NVIDIA L4 for AI Video),它可以提供比CPU高120倍的AI视频性能,能效高99%,它扮演着通用GPU的角色,可以提供增强的视频解码和转码、视频流、增强现实、生成式 AI 视频等。
二、用于AI生成图像的NVIDIA L40(NVIDIA L40 for Image Generation),针对图形和支持AI的2D、视频和3D图像生成进行了优化。
L40平台是NVIDIA Omniverse的引擎,Omniverse是一个用于在数据中心构建元宇宙应用程序的平台,与上一代相比,稳定扩散的推理性能提高了 7 倍,Omniverse 性能提高了 12 倍。
三、用于大型语言模型类应用部署的NVIDIA H100 NVL(NVIDIA H100 NVL for Large Language Model Deployment),目前最经典的应用代表就是ChatGPT。
NVIDIA H100 NVL推理平台搭载94GB的内存和Transformer Engine加速功能,与上一代A100相比,GPT-3推理性能上提高了12倍,是这类应用最理想的选择。
四、用于推荐模型NVIDIA Grace Hopper(NVIDIA Grace Hopper for Recommendation Models),它是各种图形推荐模型、矢量数据库和图形神经网络的理想选择。
NVIDIA Grace Hopper支持CPU和GPU之间高达900 GB/s NVLink-C2C连接,与PCIe Gen 5相比,其数据传输和查询性能快7倍。
上述四个推理平台还搭载NVIDIA AI企业软件套件,其中包括用于高性能深度学习推理的软件开发工具包NVIDIA TensorRT,以及有助于标准化模型部署的开源推理服务软件NVIDIA Triton inference Server。
NVIDIA H100 Hopper系列
英伟达首席执行官黄仁勋表示:“生成式人工智能应用的兴起需要更强大的推理计算平台作为支撑,其应用数量和前景都是无限的,仅受人类想象力的限制。
我们将为各种AI应用开发人员提供性能最强大、最灵活的推理计算平台,这将加速各种新AI服务的创建,以目前无法想象的方式改善人类的生活。”
据悉,谷歌云是英伟达上述推理平台的重要合作伙伴和早期客户,它正在将NVIDIA L4集成到其机器学习平台Vertex AI中,它使用生成式人工智能帮助创作者制作视频和播客,WOMBO,它提供一款名为Dream的人工智能文本数字艺术应用程序。
预计英伟达推出这四款推理平台将加速各种AI类应用的普及,各个行业都可以从中受益,最终会造福所有用户。
领取专属 10元无门槛券
私享最新 技术干货