首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >NVIDIA 推出 2006 年以来最大 CUDA 更新:CUDA Tile,这对开发者意味着什么?

NVIDIA 推出 2006 年以来最大 CUDA 更新:CUDA Tile,这对开发者意味着什么?

作者头像
GPUS Lady
发布2025-12-21 14:18:09
发布2025-12-21 14:18:09
1260
举报
文章被收录于专栏:GPUS开发者GPUS开发者

本月,NVIDIA 宣布推出自 2006 年 CUDA 平台问世以来最大的一次架构性革新:CUDA 13.1 版本中的 CUDA Tile。这项突破性技术引入了一种基于“分块”的虚拟指令集,旨在让开发者能够以更高层次的方式为 GPU 编写并行程序,特别是无需再费心处理底层专用硬件(如 Tensor 核心)的复杂编程细节。

为什么 GPU 需要“分块”编程?

传统的 CUDA 采用“单一指令多线程”(SIMT)模型,它赋予开发者极大的灵活性和控制力,可以精细调控每个线程的行为。然而,要写出能跨越多代 GPU 架构都保持高性能的代码,往往需要耗费大量心力。

虽然现有函数库(如 CUDA-X、CUTLASS)能帮助提升效能,但随着运算工作负载(尤其是 AI 领域)日益复杂,张量 已成为关键数据类型。NVIDIA 也为此设计了专用硬件,例如 Tensor 核心Tensor 内存加速器,它们已成现代 GPU 不可或缺的一部分。

更复杂的硬件,需要更智慧的软件来驾驭。CUDA Tile 的核心理念正是抽象化:开发者只需专注于将数据划分为一个个“区块”,然后定义在这些区块上要执行的运算,无需再烦恼每个数据元素要如何对应到线程。底层的编译器和运行时环境会自动处理好硬件映射的工作。

下图简单说明了新旧模型的思维差异:

  • 分块模型:应用程序(程序员)负责将数据分块,编译器负责将数据块映射到线程。
  • SIMT 模型:应用程序需要同时将数据映射到块和线程两个层级。

这种高阶编程模式在 Python 等语言中很常见,例如使用 NumPy 时,你只需对整个矩阵下指令,无需关心背后的具体实现,CUDA Tile 正是将这种便利性带到了 GPU 编程中。

CUDA Tile IR:分块编程的基石

CUDA Tile 的技术基础是 CUDA Tile IR。IR 是编译器领域的“中间表述”,它引入了一套虚拟指令集,能让硬件原生地以分块操作为单位执行。

正如 PTX 为 SIMT 程序提供了可移植性,CUDA Tile IR 则为分块程序提供了原生支持。开发者只需关注如何将数据并行程序分解成“分块”和“分块区”,CUDA Tile IR 会自动处理好它们对线程、内存层级和 Tensor 核心等硬件资源的映射。

通过提高抽象层级,CUDA Tile IR 让使用者能更轻松地为 NVIDIA 硬件构建更高阶的编译器、框架或领域特定语言。可以说,CUDA Tile IR 之于分块编程,就如同 PTX 之于 SIMT 编程

并行不悖:SIMT 与 Tile 的共存之道

重要的是,这不是二选一的问题。分块编程是编写 GPU 程序的一种新途径,它与传统的 SIMT 模型是共存且互补的。当你需要极致的细粒度控制时,依然可以像过去一样编写 SIMT 内核;而当你想要充分利用 Tensor 核心性能时,就可以选择编写分块内核。

下图展示了 CUDA Tile 在整个软件堆栈中的位置,它作为一条独立但互补的路径,与现有的 SIMT 路径并行不悖。

开发者该如何上手 CUDA Tile?

对于大多数开发者而言,无需直接接触 CUDA Tile IR 的底层细节,可以通过更高阶的工具来使用这项新技术:

  1. NVIDIA cuTile Python:这将是多数开发者接触分块编程的主要方式。这是一个 NVIDIA 的 Python 实现,其后端正是 CUDA Tile IR。开发者可以在熟悉的 Python 环境中,以高生产力方式享受 CUDA Tile 带来的性能优势。
  2. CUDA Tile IR:如果你正在开发自己的编译器、领域特定语言或高性能函数库,则需要直接与 CUDA Tile IR 交互。其官方文档提供了详细的抽象概念、语法和语义,方便你将现有以 PTX 为目标的编译工具,扩展支持 CUDA Tile IR。

CUDA Tile 的推出,标志着 GPU 编程模型进入一个新时代。它通过更高层次的抽象,降低了开发者,特别是 AI 和高性能计算领域专家,利用尖端 GPU 硬件(尤其是 Tensor 核心)的门槛。这项革新不仅简化了程序开发,更确保了代码在当前及未来 GPU 架构上的性能与可移植性,为下一波计算密集型应用奠定了坚实的基础。

欢迎关注更多社区活动

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-12-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 GPUS开发者 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档