NVIDIA GTC期间,发布了很多软件堆栈和库的升级,而TensorRT 8.6也是其中之一。这是一款优化深度学习模型的强大软件工具。最新版本包括几个新功能,包括硬件和版本兼容性、性能改进和优化级别构建器标志。
其中最重要的更新之一是硬件和版本兼容性功能。以前,升级硬件或TensorRT版本需要重新构建,这可能很昂贵且耗时。然而,新功能可以实现硬件和版本兼容的构建,在升级过程中无需重新构建。
同时,进行了性能改进,包括改进了fMHA和支持长seqlen,类似于flash attention。FasterDynamicShape现在已默认启用,并且H100性能得到了提高。
新的优化级别构建器标志允许用户在构建时间和性能之间进行权衡。此功能使用户对其模型的优化具有更多控制权,使其更容易平衡性能和时间限制。
TensorRT 8.6还包括支持CUDA 12.X和细粒度多流控制。这使用户可以调整网络中的流数量,根据其特定需求优化性能。
NVIDIA不断致力于改进TensorRT,为用户提供优化其深度学习模型的最新工具和功能。通过新的硬件和版本兼容性功能和其他改进,TensorRT 8.6无疑将成为在人工智能领域工作的开发人员和研究人员的游戏规则改变者。