首页
学习
活动
专区
圈层
工具
发布

#cuda

CUDA编程:Pinned Memory(固定页内存)如何提升 CPU↔GPU 数据传输效率

Michael阿明

前几课已经发现,很多 CUDA 程序并不是慢在 GPU kernel,而是慢在 H2D 和 D2H 数据搬运。 因此,第四课的重点从“怎么写 kernel”转向...

5310

CUDA编程 - vector加法

Michael阿明

执行 !nvcc -O3 -std=c++17 -arch=sm_75 vector_add.cu -o vector_add 编译

6010

ZStack dGPU:让虚拟机里的 GPU 也能按需切分

ZStack云计算

在 Kubernetes 生态中,GPU 共享调度已趋于成熟——时间片轮转、显存隔离、按 Pod 粒度分配,各家方案百花齐放。

7310

BASIC语言实现CUDA Tile GPU编程

用户11764306

CUDA 13.1引入了CUDA Tile,这是一种基于分块的下一代GPU编程范式,旨在使细粒度并行更易用、更灵活。其关键优势之一是语言开放性:任何编程语言都可...

10110

告别英伟达依赖!DeepSeek-V4 国产化落地:百万上下文大模型首次全面拥抱国产算力——华为昇腾、天数智芯、寒武纪等主流国产AI芯片的全栈深度适配

jack.yang

2026年4月24日,当 DeepSeek-V4 预览版正式开源并宣布支持 1M Token 超长上下文 时,全球AI社区的目光大多聚焦于其惊人的模型性能。然而...

2.9K60

NVIDIA CUDA Tile高性能矩阵乘法实现

用户11764306

本博文是一个系列文章的一部分,旨在帮助开发者学习NVIDIA CUDA Tile编程,以构建高性能GPU内核,并以矩阵乘法为核心示例。

14010

如何看待网传 DeepSeek V4 即将发布并提出「去CUDA化」?

鱼片粥来碗豆腐

我这两天也在看这个消息,说实话一开始看到“DeepSeek V4 + 去CUDA化”,我第一反应不是模型强不强,而是:这事如果是真的,影响其实比模型性能更大。

32020

GPU数据共享踩坑?CUDA Fences:解决“隐形过期数据”的底层神器

GPUS Lady

在GPU并行计算的世界里,有一个“隐形陷阱”常常困扰着开发者——当两个SM(流式多处理器)需要共享数据时,明明代码逻辑无误,却会出现诡异的计算错误。这背后的“元...

14610

你每天用的AI,都藏着一个叫CUDA的“幕后推手”

GPUS Lady

还有没有人刷到CUDA相关内容,却始终不知道它到底是什么?今天我们就跳出复杂的技术术语,用最通俗的方式,聊聊这个撑起整个AI时代的“隐形功臣”,顺便分享一个你大...

17510

一次看懂:CUDA 最新技术与未来 3 年路线图

GPUS Lady

本文基于 NVIDIA 官方 CUDA 主题演讲,系统梳理当前 GPU 计算的核心变革、CUDA 最新技术突破,以及面向数据中心与多节点场景的长期规划。

41510

0基础CUDA炼丹、增加断点保存,从零开始训练自己的AI大模型 87owo/EasyGPT Python CUDA

王忘杰

数据集下载: https://github.com/87owo/EasyGPT/releases

12710

NVIDIA CCCL中控制浮点确定性的技术

用户11764306

作者:Nader Al Awar 和 Srinivas Yadav Singanaboina

10010

NVIDIA CUDA 13.2 发布:性能跃升与生态完善的双重突破

GPUS Lady

2026 年 3 月 5 日,NVIDIA 正式推出 CUDA Toolkit 13.2 版本,作为全球领先的并行计算平台与编程模型,此次更新在核心架构优化、计...

61310

CUDA 13.2:增强Tile支持与Python新特性

用户11764306

cuda.core 0.6 引入了用于 GPU 监控和管理的 NVML 绑定(cuda.bindings.nvml),以及用于胖二进制文件操作的新 nvFatb...

34400

多进程CUDA初始化的问题 Cannot re-initialize CUDA in forked subprocess

Michael阿明

上面这个例子会报错,主进程触发了 CUDA 初始化,fork 出来的子进程中创建 tensor 的时候报错了

16310

使用NVIDIA CUDA Tile编写高性能矩阵乘法

用户11764306

本文是帮助开发者学习NVIDIA CUDA Tile编程以构建高性能GPU核函数系列文章的一部分,以矩阵乘法作为核心示例。

26510

Jim Keller:英伟达“CUDA护城河”将终结?

芯智讯

12月9日消息,英伟达近日正式发布了“NVIDIA CUDA Toolkit 13.1”,其中“CUDA Tile”是最核心的更新,这是英伟达基于 Tile 的...

20210

为更好与英伟达CUDA竞争,华为CANN全面开源

芯智讯

8月5日,在北京召开的昇腾计算产业发展峰会上,华为轮值董事长徐直军宣布,华为CANN Mind系列应用套件及工具链全面开源,支持用户自主的深度挖潜和自定义开发,...

43310
领券