首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

#gpu

HAMi源码解析——device-plugin

DifficultWork

这样 Pod 中有环境变量, NVIDIA Container Toolkit 就会为其分配 GPU,通过 HAMi 自定义逻辑中替换 libvgpu.so 和...

28110

podman容器里面使用gpu

隔壁没老王

参考 https://cloud.tencent.com/document/product/560/118463

9610

揭秘千卡 GPU 集群如何高效训练多模态大模型:vivo AI 团队实战经验分享|AICon

深度学习与Python

多模态大模型在智能客服、自动驾驶、AIGC 等领域的应用需求不断增长,但其训练工程面临计算、存储、数据处理、分布式通信等多重挑战。特别是在千卡级 GPU 训练集...

15710

HAMi源码解析——HAMi-Core-3

DifficultWork

GPU 的利用率取决于提交到 GPU 的计算任务,当遇到数据并行处理时,CUDA 会将程序编译成 GPU 能处理的程序并交给 GPU 处理。这种程序在 CUDA...

27410

如何查看GPU是否可用,CPU、GPU、NPU、APU运行状态,是否可用,大小指令大全(Windows、Mac、Linux)

猫头虎

新建TXT,写入以下内容,改扩展名为hardware-info.bat,双击即可:

82620

提升GPU利用率:探索NVIDIA的MIG与MPS虚拟化技术

没有故事的陈师傅

如何管理MIG,参考了知乎(https://zhuanlan.zhihu.com/p/558046_64_4),其中如果关注资源利用率,可以看看 vgpu 和 ...

22400

让GPU不再摸鱼!清华蚂蚁联合开源首个全异步RL,一夜击穿14B SOTA

新智元

【新智元导读】清华与蚂蚁联合开源AReaL-boba²,实现全异步强化学习训练系统,有效解耦模型生成与训练流程,GPU利用率大幅提升。14B模型在多个代码基准测...

7700

HAMi源码解析——HAMi-Core-2

DifficultWork

在 Pod 中执行 nvidia-smi 命令查看设备信息时,Memory 部分只会展示申请的值,而非设备真实内存,这部分则是通过拦截 NVML API 实现的...

18810

【教程】汇总nvidia-smi能查询的所有字段信息

小锋学长生活大爆炸

20600

StableDiffusion线稿获取作画——AI线稿作画

红目香薰

线稿作画的优势我在前文中说过,我就不做累述了StableDiffusion线稿获取方法——AI取线稿可以根据这篇文章来搞定,当我们获取到了线稿之后如何作画呢,那...

9710

为什么配置NVIDIA Isaac 机器人开发平台,对GPU显卡的要求这么高?

GPUS Lady

很多想要开始学习NVIDIA Isaac智能机器人整合工具的新手,一开始比较困惑的,就是就是这套软件有什么最基本以及较合适的系统配置?毕竟这些系统都不是便宜的东...

23910

qdrant v1.14.1发布!性能再刷新纪录,GPU加速+持久化革新,向海量向量搜索高效演进!

福大大架构师每日一题

在向量数据库领域,性能与稳定性一直是用户最为关心的两大核心指标。近日,开源向量搜索引擎qdrant发布了全新版本v1.14.1,这次更新带来了诸多底层架构和算法...

21410

【知识】cuda检测GPU是否支持P2P通信及一些注意事项

小锋学长生活大爆炸

1、官方提供的cuda_tool里的simpleP2P、p2pBandwidthLatencyTest也都可以检测是否支持P2P。

8500

【教程】创建NVIDIA Docker共享使用主机的GPU

小锋学长生活大爆炸

18810

【技巧】实时监控GPU运行状态

小锋学长生活大爆炸

GPU统计数据以滚动方式显示,每个采样间隔一行。可以根据终端窗口的宽度调整要监控的指标。最多只能监控4个设备。如果没有指定设备,则使用自然枚举(...

31110

【踩坑】修复循环设置os.environ[‘CUDA_VISIBLE_DEVICES‘]无效

小锋学长生活大爆炸

在使用 os.environ['CUDA_VISIBLE_DEVICES'] 动态设置可见的 GPU 时,通常只能在程序开始运行之前进行设置,并...

28010

【踩坑】修复多GPU通信时all_reduce/broadcast时间不一致的问题

小锋学长生活大爆炸

按照网上的说法,计时使用了torch.cuda.Event(enable_timing=True)和torch.cuda.synchronize(),但跑出来...

13310

【知识】简单易懂GPU架构图解和Tensor Core

小锋学长生活大爆炸

架构的升级,其中一点是对Tensor core的升级。利用 Tensor Core 可以加速 FP16 下的矩阵乘法。在pytorch中可以通过...

19310

如何破解GPU集群集合通信路径的“黑盒”难题?

星融元Asterfusion

近年来,AI大模型训练对算力的需求呈指数级增长。以GPT、LLaMA为代表的千亿参数级模型,依赖分布式GPU集群进行并行计算,而集群中GPU服务器间的数据通信效...

10810

ollama v0.7.0 正式发布!性能大提升,NVIDIA GPU支持更完善,Windows体验全面优化!

福大大架构师每日一题

2025年5月13日,备受期待的 Ollama v0.7.0 版本终于正式发布!作为 AI 模型运行与管理领域的重要工具,Ollama 持续以卓越的性能和创新功...

62510
领券