首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

#gpu

软件开发者谈GPU

用户10032452

最近几年有幸参与公司GPU芯片的软件开发工作,目前公司和个人都到了一个十字路口,趁着闲暇时间从一个软件工程师的角度梳理总结一下GPU相关知识。知识多数来自网络和...

2400

腾讯云发布轻量GPU工作空间:轻量集成,开箱即用

腾讯云计算产品团队

腾讯云 · 产品团队 (已认证)

今天起,高校/教培机构、学生、开发者及数据科学家可以拥有更易用、更高效的轻量GPU工作空间啦!「腾讯云高性能应用服务HAI」与「腾讯云Cloud Studio」...

3610

大模型与AI底层技术揭秘(34)最早的国际象棋程序

用户8289326

在上期,我们提到,实现支持完备QoS的运营级别GPU虚拟化的关键在于,实现GPU任务的上下文切换。这实际上涉及到一个问题:

6410

Mirage:基于GPU张量程序的多级超级优化器

GPUS Lady

苏州吉浦迅科技有限公司 · 联合创始人 (已认证)

在深度学习领域,针对GPU的高性能执行深度神经网络(DNNs)对于现代机器学习应用至关重要。当前的DNN框架通常使用张量程序来指定DNN计算,张量程序是由节点和...

8710

坏了,我的RTX 3090 GPU在对我唱歌!

机器之心

在一个昏暗的机箱里,一台 RTX 3090 GPU「唱」着经典英语儿歌《一闪一闪亮晶晶》(Twinkle,Twinkle,Little Star)的旋律。

10010

从零开始手搓GPU,照着英伟达CUDA来,只用两个星期

机器之心

近日,美国一家 web3 开发公司的创始工程师之一 Adam Majmudar 分享了他「手搓 GPU」成功的经历,引发了网友们的一大片点赞。令人惊讶的是,他仅...

8010

在GPU上加速RWKV6模型的Linear Attention计算

BBuf

本文主要讲一些看到的RWKV 6模型的Linear Attention模块推理加速方法,在这篇博客中暂不涉及对kernel的深入解析。首先,flash-line...

12710

【Rust日报】Luminal:在 Rust 中编译快速 GPU 内核

MikeLoveRust

https://kyju.org/blog/piccolo-a-stackless-lua-interpreter/

10310

Cupy:利用 NVIDIA GPU 来加速计算

luckzack

CuPy 是一个开源的 Python 库,它的设计初衷是为了使得在 GPU 上的计算变得简单快捷。 它提供了与 NumPy 非常相似的 API,这意味着如果你...

18310

又一款国产GPU量产上市:性能媲美10年前AMD嵌入式显卡!

芯智讯

5月7日,据“中国光谷”消息,武汉凌久微电子有限公司(简称“凌久微”)宣布,其自主设计的第二代图形处理器(GPU)GP201已成功量产上市。

15810

AI时代CIO如何应对GPU匮乏

云云众生s

通过采用模型优先的心态、优化利用率和战略性地运用负载平衡,首席信息官可以缓解芯片短缺。

9610

突破摩尔定律极限!前谷歌量子计算团队首创「热力学计算机」,英伟达GPU「退役」?

新智元

比起当前的CPU、GPU、TPU、FPGA等数字处理器,这种全新的AI加速器快了数个数量级,而且更加节能。

6810

使用 DPDK 和 GPUdev 在 GPUs上增强内联数据包处理

ssbandjl

对于 NVIDIA 特定的 GPU,GPUdev 库功能是通过CUDA 驱动程序 DPDK 库在 DPDK 驱动程序级别实现的。要启用NVIDIA GPU 上所...

13110

突破摩尔定律极限!前谷歌量子计算团队首创「热力学计算机」,英伟达GPU「退役」?

公众号-arXiv每日学术速递

比起当前的CPU、GPU、TPU、FPGA等数字处理器,这种全新的AI加速器快了数个数量级,而且更加节能。

9010

为什么大模型训练需要GPU,以及适合训练大模型的GPU介绍

JOYCE_Leo16

今天偶然看到一篇关于介绍GPU的推文,我们在复现代码以及模型训练过程中,GPU的使用是必不可少的,那么大模型训练需要的是GPU,而不是CPU呢。现在市面上又有哪...

27210

什么是 GPU集群网络、集群规模和集群算力?

ICT百科

在生成式AI(GenAI)和大模型时代,不仅需要关注单个GPU卡的算力,更要关注GPU集群的总有效算力。单个GPU卡的有效算力可以通过该卡的峰值算力来测算,例如...

21910

大模型与AI底层技术揭秘(31)令狐冲化身酒剑仙

用户8289326

在Kubernetes的Master节点上,也增加一个组件,叫做gpu-admission,其作用是接管Kubernetes Scheduler的predica...

8610

onnxruntime-gpu 预热速度优化

为为为什么

在 Python 下 onnxruntime-gpu 加载 onnx 模型后,创建 seddion 进行数据推断,在第一次执行时会比之后执行耗时更久,需要资源更...

16410

GPU可以加速芯片设计的Implementaion吗?

猫叔Rex

在数字设计的Implementation过程中,从RTL到GDSII的每一步都是高度计算密集型的。在SoC层面,为了最小化互连的延迟,我们需要评估数百个par...

14110

MindSpore运行报错RuntimeError: Unsupported device target GPU解决方案

DechinPhy

在运行MindSpore程序时,设置device_target为GPU,结果运行时报错:

20010
领券