首页
学习
活动
专区
圈层
工具
发布

#cuda

29:【flash-attention / vLLM】安装失败(CUDA架构/版本不符)

安全风信子

作者: HOS(安全风信子) 日期: 2026-01-01 主要来源平台: GitHub 摘要: 本文详细分析2026年flash-attention和v...

11410

26:【CUDA Tile / Blackwell】新架构报错 no kernel image / compute capability不匹配

安全风信子

作者: HOS(安全风信子) 日期: 2026-01-01 主要来源平台: GitHub 摘要: 本文详细分析2026年NVIDIA最新的CUDA Til...

9410

CUB单次调用API:简化GPU并行算法开发

用户11764306

C++模板库CUB是实现高性能GPU基础算法(如扫描、排序、归约等)的首选工具。然而,其传统的“两阶段”API需要先估算临时内存大小,再显式分配内存并执行内核,...

9210

Sirius:GPU加速DuckDB,刷新ClickBench纪录

用户11764306

Sirius是一个GPU原生的SQL引擎,旨在为DuckDB提供即插即用的加速功能,未来也将支持其他数据系统。

8110

聚焦算法:深入解析NVIDIA CUDA Tile硬件抽象技术

用户11764306

随着自2006年NVIDIA CUDA平台发明以来最大的一次进步,CUDA 13.1推出了NVIDIA CUDA Tile。这项激动人心的创新引入了一个用于基于...

9210

老黄大出血!OpenAI背刺英伟达,微软自研芯连夜拆掉CUDA护城河?

新智元

老黄的噩梦成真了!2026年1月26日,微软数据中心(爱荷华)一声巨响,黄仁勋的后背瞬间凉透。

14710

Ubuntu22.04多显卡安装paddle GPU

Dragon水魅

通过https://docs.nvidia.cn/cuda/cuda-toolkit-release-notes/index.html找到与之对应的 CUDA ...

9910

谷歌430万颗TPU暴击CUDA护城河!Meta「割肉」助攻

新智元

该数据来自Global Semi Research(全球半导体研究)最新的一项独立研究。

23410

深入解析NVIDIA CUDA Tile:面向GPU的平铺编程新范式

用户11764306

随着CUDA 13.1的发布,该平台引入了自2006年诞生以来最重大的进展之一:NVIDIA CUDA Tile。这项令人兴奋的创新引入了一个面向基于平铺(Ti...

35210

将 GPU 级性能带到企业级 Java:CUDA 集成实用指南

程序猿DD

然而,一旦涉及高性能计算(HPC)或数据密集型作业,Java 的托管运行时与垃圾回收开销会在满足现代应用的低延迟与高吞吐需求上带来挑战,尤其是那些涉及实时分析、...

14610

解读CUDA

半吊子全栈工匠

PyTorch 是一个机器学习库,它允许在 GPU 上创建、训练和运行高级人工智能模型。在很大程度上,人工智能在过去几年的快速发展都要归功于 PyTorch 的...

23710

刚刚,英伟达CUDA迎来史上最大更新!

机器之心

几个小时前,NVIDIA CUDA Toolkit 13.1 正式发布,英伟达官方表示:「这是 20 年来最大的一次更新。」

51310

AI巨擘创世纪:英伟达的CUDA豪赌

AGI小咖

2025年7月,英伟达的市值如火箭般冲破4万亿美元(大约等于A股前20大市值的公司之和)的穹顶,登顶全球资本市场,成为名副其实的 生成式AI (Generati...

34810

NVIDIA 推出 2006 年以来最大 CUDA 更新:CUDA Tile,这对开发者意味着什么?

GPUS Lady

本月,NVIDIA 宣布推出自 2006 年 CUDA 平台问世以来最大的一次架构性革新:CUDA 13.1 版本中的 CUDA Tile。这项突破性技术引入了...

27500

ollama v0.11.11 发布:CUDA 13 支持、内存优化与应用体验全面提升

福大大架构师每日一题

Ollama 近日发布了 v0.11.11 版本,该版本于 2025 年 9 月 12 日进入预发布阶段,并于 9 月 16 日正式推出。本次更新涵盖了多项重要...

26110

【教程】DeepSeek-OCR本地部署(上):CUDA 升级12.9,vLLM升级至最新稳定版

Ai学习的老章

DeepSeek-OCR 开源有段时间了,我曾详细测试过DeepSeek 最新开源 OCR 模型,实测,也推荐过基于它的 web 端应用:一个强大的开源 OCR...

1.5K10

MAC使用MPS进行GPU深度模型训练(MPS替代CUDA)

老周聊架构

随着深度学习的广泛应用,硬件加速成为了模型训练的重要因素。GPU凭借其强大的并行计算能力,已经成为深度学习训练的首选设备。然而,在不同的操作系统上,由于硬件厂商...

69810

Ubuntu22.04安装YOLOv5,anaconda,cuda,pycharm步骤

懒洋洋

因为看教程时总是纠结安装的路径,之前看教程总是先安装anaconda,然后我就有点懵,这次我直接在主目录下安装cuda,cuda算是一个工具,安装后他可以让yo...

54510

ollama 离线安装本地模型

云技术以及云存储

[docker@**-**-**-50 ~]$ cat /etc/redhat-release

96510

RTX 4090 CUDA 12.0新特性:开发者必知的性能优化技巧

Xxtaoaooo

人们眼中的天才之所以卓越非凡,并非天资超人一等而是付出了持续不断的努力。1万小时的锤炼是任何人从平凡变成超凡的必要条件。———— 马尔科姆·格拉德威尔

45310
领券