首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    英伟达CUDA架构核心概念及入门示例

    理解英伟达CUDA架构涉及几个核心概念,这些概念共同构成了CUDA并行计算平台的基础。 1. SIMT(Single Instruction Multiple Thread)架构 CUDA架构基于SIMT模型,这意味着单个指令可以被多个线程并行执行。每个线程代表了最小的执行单位,而线程被组织成线程块(Thread Block),进一步被组织成网格(Grid)。这种层级结构允许程序员设计高度并行的算法,充分利用GPU的并行计算核心。 2. 层级结构 - 线程(Threads): 执行具体计算任务的最小单位。 - 线程块(Thread Blocks): 一组线程,它们共享一些资源,如共享内存,并作为一个单元被调度。 - 网格(Grid): 包含多个线程块,形成执行任务的整体结构。 3. 内存模型 - 全局内存: 所有线程均可访问,但访问速度相对较慢。 - 共享内存: 位于同一线程块内的线程共享,访问速度快,常用于减少内存访问延迟。 - 常量内存和纹理内存: 优化特定类型数据访问的内存类型。 - 寄存器: 最快速的存储,每个线程独有,但数量有限。 4. 同步机制 屏蔽同步(Barrier Synchronization) 通过同步点确保线程块内或网格内的所有线程达到某个执行点后再继续,保证数据一致性。 5. CUDA指令集架构(ISA) CUDA提供了专门的指令集,允许GPU执行并行计算任务。这些指令针对SIMT架构优化,支持高效的数据并行操作。 6. 编程模型 CUDA编程模型允许开发者使用C/C++等高级语言编写程序,通过扩展如`__global__`, `__device__`等关键字定义GPU执行的函数(核函数,kernel functions)。核函数会在GPU上并行执行,而CPU代码负责调度这些核函数并在CPU与GPU之间管理数据传输。 7. 软件栈 CUDA包含一系列工具和库,如nvcc编译器、CUDA runtime、性能分析工具、数学库(如cuFFT, cuBLAS)、深度学习库(如cuDNN)等,为开发者提供了完整的开发环境。

    01

    【社区投稿】给 NdArray 装上 CUDA 的轮子

    Ndarry是Rust编程语言中的一个高性能多维、多类型数组库。它提供了类似 numpy 的多种多维数组的算子。与 Python 相比 Rust 生态缺乏类似 CuPy, Jax 这样利用CUDA 进行加速的开源项目。虽然 Hugging Face 开源的 candle 可以使用 CUDA backend 但是 candle 项瞄准的是大模型的相关应用。本着自己造轮子是最好的学习方法,加上受到 Karpathy llm.c 项目的感召(这个项目是学习如何编写 CUDA kernel 的最好参考之一),我搞了一个 rlib 库给 NdArray 加上一个跑在 CUDA 上的矩阵乘法。ndarray-linalg 库提供的点乘其中一个实现(features)是依赖 openblas 的,对于低维的矩阵性能可以满足需求,但是机器学习,深度学习这些领域遇到的矩阵动辄上千维,openblas 里古老的优化到极致的 Fortran 代码还是敌不过通过并行性开挂的CUDA。

    01
    领券