cuda mps_腾讯云MPS新春活动_腾讯云MPS新春采购 - 腾讯云开发者社区

多进程服务(MPS)是CUDA应用程序编程接口(API)的另一种二进制兼容实现。MPS运行时架构被设计成透明地启用协作的多进程CUDA应用程序(通常是MPI作业)，以利用最新的NVIDIA(基于kepler) gpu上的Hyper-Q功能。Hyper-Q允许CUDA内核在同一GPU上并行处理;这可以在GPU计算能力被单个应用程序进程未充分利用的情况下提高性能。

CUDA12.2发布：引入异构内存管理（HMM）

新发布的版本引入了异构内存管理（Heterogeneous Memory Management，HMM），实现了主机内存和加速器设备之间的数据无缝共享。

您找到你想要的搜索结果了吗？

是的

没有找到

MLX vs MPS vs CUDA:苹果新机器学习框架的基准测试

太厉害了！98 秒内可以在本地转录 2.5 小时的音频！

本文小编给大家推荐一款名为 insanely-fast-whisper 的音频转录工具，近期在 Github 上超级火🔥🔥🔥。

GPU虚拟化，算力隔离，和qGPU

宋吉科，腾讯云异构计算研发负责人，专注系统虚拟化、操作系统内核十多年，KVM平台上第一个GPU全虚拟化项目KVMGT作者，对GPU、PCIe有深入的研究。〇、本文写作背景大约 2 年前，在腾讯内网，笔者和很多同事讨论了 GPU 虚拟化的现状和问题。从那以后，出现了一些新的研究方向，并且，有些业界变化，可能会彻底颠覆掉原来的一些论断。但这里并不是要重新介绍完整的 GPU 虚拟化的方案谱系。而是，我们将聚焦在英伟达 GPU + CUDA 计算领域，介绍下我们最新的技术突破 qGPU，以及它的意义究竟是什

013

PyTorch 1.12发布，正式支持苹果M1芯片GPU加速，修复众多Bug

机器之心报道编辑：陈萍 PyTorch 1.12 正式发布，还没有更新的小伙伴可以更新了。距离 PyTorch 1.11 推出没几个月，PyTorch 1.12 就来了！此版本由 1.11 版本以来的 3124 多次 commits 组成，由 433 位贡献者完成。1.12 版本进行了重大改进，并修复了很多 Bug。随着新版本的发布，大家讨论最多的可能就是 PyTorch 1.12 支持苹果 M1 芯片。其实早在今年 5 月，PyTorch 官方就已经宣布正式支持在 M1 版本的 Mac 上进行

PyTorch 1.12发布，正式支持苹果M1芯片GPU加速，修复众多Bug

点击机器学习算法与Python学习，选择加星标精彩内容不迷路机器之心报道 PyTorch 1.12 正式发布，还没有更新的小伙伴可以更新了。距离 PyTorch 1.11 推出没几个月，PyTorch 1.12 就来了！此版本由 1.11 版本以来的 3124 多次 commits 组成，由 433 位贡献者完成。1.12 版本进行了重大改进，并修复了很多 Bug。随着新版本的发布，大家讨论最多的可能就是 PyTorch 1.12 支持苹果 M1 芯片。其实早在今年 5 月，PyTor

基于 Jetson 在 kubeedge上搭建机器学习环境（docker/containerd）

安装教程：Installing the NVIDIA Container Toolkit

【资料学习】我到底拿什么说服老板采购Tesla V100！

本文仅献给需要做GPU超算方案和预算的科研前线的人同类介绍Tesla V100的技术文章很多，我们只highlight关键几个知识点。 2017年5月GTC 2017大会上，英伟达发布了面向高性能计算的新一代Volta架构加速器，Tesla V100。Tesla V100加速器采用12nm FFN工艺，搭载新款图形处理器GV100，拥有5120 CUDA、640个Tensor内核，分PCle和SXM2两版，双精度浮点运算能力分别可达7 TFLOPS和7.8 TFLOPS，单精度则为14 TFLOPS和15

PyTorch 1.12发布，正式支持苹果M1芯片GPU加速，修复众多Bug

点击上方↑↑↑“OpenCV学堂”关注我来源：公众号机器之心授权 PyTorch 1.12 正式发布，还没有更新的小伙伴可以更新了。距离 PyTorch 1.11 推出没几个月，PyTorch 1.12 就来了！此版本由 1.11 版本以来的 3124 多次 commits 组成，由 433 位贡献者完成。1.12 版本进行了重大改进，并修复了很多 Bug。随着新版本的发布，大家讨论最多的可能就是 PyTorch 1.12 支持苹果 M1 芯片。其实早在今年 5 月，PyTorch 官方就已经

登峰造极,师出造化,Pytorch人工智能AI图像增强框架ControlNet绘画实践,基于Python3.10

人工智能太疯狂，传统劳动力和内容创作平台被AI枪毙，弃尸尘埃。并非空穴来风，也不是危言耸听，人工智能AI图像增强框架ControlNet正在疯狂地改写绘画艺术的发展进程，你问我绘画行业未来的样子？我只好指着ControlNet的方向。本次我们在M1/M2芯片的Mac系统下，体验人工智能登峰造极的绘画艺术。

闻其声而知雅意,M1 Mac基于PyTorch(mps/cpu/cuda)的人工智能AI本地语音识别库Whisper(Python3.10)

前文回溯，之前一篇：含辞未吐,声若幽兰,史上最强免费人工智能AI语音合成TTS服务微软Azure(Python3.10接入)，利用AI技术将文本合成语音，现在反过来，利用开源库Whisper再将语音转回文字，所谓闻其声而知雅意。

深度剖析：针对深度学习的GPU共享

来源丨https://zhuanlan.zhihu.com/p/285994980

nvprof –help

发布者：全栈程序员栈长，转载请注明出处：https://javaforall.cn/135846.html原文链接：https://javaforall.cn

第10节 libtorch与torchvision交叉编译（ARM与安卓 ios）

libtorch cross compile on aarch64-linux-gnu-gcc include torchvision

又双叒叕有公司想打破Nvidia垄断？这回让CUDA代码直接编译运行于AMD GPU

AMD一直在努力弥合由Nvidia的CUDA主导地位所造成的差距，特别是在针对PyTorch等AI项目方面。同时，众多工具也纷纷加入这一行列，共同挑战Nvidia的权威地位。

在 Mac M1 的 GPU 上运行Stable-Diffusion

Stable Diffusion 是开源的，所以任何人都可以运行和修改它。这就是其在开源之后引发了大量创作热潮的原因。

深度剖析：针对深度学习的GPU共享

来源丨https://zhuanlan.zhihu.com/p/285994980

大模型与AI底层技术揭秘（31）令狐冲化身酒剑仙

上期我们说到令狐冲在思过崖了解到了剑宗与气宗的区别，武功很快就有了质的飞跃，消灭了大boss东方不败，跟任盈盈携手隐居在山清水秀的杭州，将饮酒与练剑作为日常娱乐项目，最终得道成仙。

黄文才：云智天枢AI中台架构及AI在K8S中的实践

2019年9月7日，云+社区（腾讯云官方开发者社区）主办的技术沙龙——AI技术原理与实践，在上海成功举行。现场的5位腾讯云技术专家，在现场与开发者们面对面交流，并深度讲解了腾讯云云智天枢人工智能服务平台、OCR、NLP、机器学习、智能对话平台等多个技术领域背后架构设计理念与实践方法。

012

双引擎 GPU 容器虚拟化，用户态和内核态的技术解析和实践分享

来源 | 经授权转载自百度智能云技术站公众号如何让硬件算力发挥最大效率，是所有资源运营商和用户非常关注的问题。百度作为一家领先的 AI 公司，拥有可能是业界最全的 AI 应用场景。在这篇文章中，将和大家分享和讨论 GPU 容器虚拟化在复杂AI场景中的解决方案和厂内的最佳实践。下面这张图片的左右两部分，在不同场合下已经多次展示过，放到这里主要想强调算力需求 —— 硬件算力的指数型增长，与真实应用场景中利用率偏低资源浪费之间的矛盾。左边的部分是 OpenAI 统计的数据，从 2012 年以来，模

人工智能,丹青圣手,全平台(原生/Docker)构建Stable-Diffusion-Webui的AI绘画库教程(Python3.10/Pytorch1.13.0)

世间无限丹青手，遇上AI画不成。最近一段时间，可能所有人类画师都得发出一句“既生瑜，何生亮”的感叹，因为AI 绘画通用算法Stable Diffusion已然超神，无需美术基础，也不用经年累月的刻苦练习，只需要一台电脑，人人都可以是丹青圣手。

英伟达Volta架构深度解读：专为深度学习而生的Tensor Core到底是什么？

机器之心报道编辑：CZ、Jenny Huang、李泽南、吴攀、蒋思源当地时间 5 月 8-11 日，英伟达在加州圣何塞举行了 2017 年的 GPU 技术大会（GTC 2017）。机器之心作为本次大会的特邀媒体，也来到了现场，参阅《现场报道 | 英伟达 GTC 大会开幕，盘点首日三大亮点》。昨天，英伟达 CEO 黄仁勋在大会上正式发布了目前最先进的加速器 NVIDIA Tesla V100。之后，英伟达开发博客又更新了一篇深度解读文章，剖析了 Tesla V100 背后的新一代架构 Volta，其在提供

刚刚，英伟达发布新规：其他硬件禁止使用CUDA！

在安装CUDA 11.6及更高版本时，最终用户许可协议（EULA）中明确表示：禁止在其他硬件平台上通过翻译层运行基于CUDA的软件！

GaiaStack上的GPU虚拟化技术

为什么需要GPU虚拟化根据平台收集的GPU使用率的历史，我们发现独占卡的模式会对GPU这种宝贵计算资源存在浪费现象，即不同用户对模型的理解深度不同，导致申请了独立的卡却没有把资源用满的情况。针对这种情况，虚拟化GPU技术可以更好的解决这种痛点，让机器的计算资源得到充分利用。现有技术情况目前来看，绝大多数公司使用的是英伟达（NVIDIA）的公司的计算卡，所以下面主要介绍NVIDIA的技术现状。 NVIDIA在前几年释放出来一个NVIDIA vGPU的一个硬件虚拟化的技术，该技术的介绍是 NVIDIA

炼丹5至7倍速，使用Mac M1 芯片加速pytorch完全指南

2022年5月，PyTorch官方宣布已正式支持在M1芯片版本的Mac上进行模型加速。官方对比数据显示，和CPU相比，M1上炼丹速度平均可加速7倍。

笔精墨妙,妙手丹青,微软开源可视化版本的ChatGPT:Visual ChatGPT,人工智能AI聊天发图片,Python3.10实现

说时迟那时快，微软第一时间发布开源库Visual ChatGPT，把 ChatGPT 的人工智能AI能力和 Stable Diffusion以及ControlNet进行了整合。常常被互联网人挂在嘴边的“赋能”一词，几乎已经变成了笑话，但这回，微软玩了一次真真正正的AI“赋能”，彻底打通了人工智能“闭环”。

快速上手chatglm.cpp模型量化工具

chatglm.cpp可以对ChatGLM系列的模型进行量化，满足在低性能的机器上进行推理，其使用的教程如下。

官方博客：英伟达的新卡如何从硬件上支持了深度学习

编者按：5 月 11 日，在加州圣何塞举办的 2017 年度 GPU 技术大会上，英伟达发布了 Tesla V100，号称史上最强的 GPU 加速器。发布之后，英伟达第一时间在官方开发者博客放出一篇博

开发 | 一文详解英伟达刚发布的 Tesla V100 究竟牛在哪？

AI科技评论按：很多读者在思考，“我和AI科技评论的距离在哪里？”答案就是：一封求职信。 5 月 11 日，在加州圣何塞举办的的 2017 年度 GPU 技术大会上，英伟达发布了 Tesla V100

013

速来白嫖！免费！快手公布了AI绘画大模型！

附上技术报告：https://github.com/Kwai-Kolors/Kolors/blob/master/imgs/Kolors_paper.pdf

Transformers 4.37 中文文档（九）

如果在单个 GPU 上训练模型太慢或者模型的权重无法适应单个 GPU 的内存，则过渡到多 GPU 设置可能是一个可行的选择。在进行此过渡之前，彻底探索在单个 GPU 上进行高效训练的方法和工具中涵盖的所有策略，因为它们普遍适用于任意数量的 GPU 上的模型训练。一旦您采用了这些策略并发现它们在单个 GPU 上不足以满足您的情况时，请考虑转移到多个 GPU。

【AI大模型】基于ChatGLM-6b从零开始本地部署语言模型，步骤详细无坑版

ChatGLM-6B 是的一种自然语言处理模型，属于大型生成语言模型系列的一部分。"6B"在这里指的是模型大约拥有60亿个参数，这些参数帮助模型理解和生成语言。ChatGLM-6B 特别设计用于对话任务，能够理解和生成自然、流畅的对话文本。这个模型通过大量的文本数据进行训练，学习如何预测和生成语言中的下一个词，从而能够参与到各种对话场景中。它可以用于多种应用，比如聊天机器人、自动回复系统和其他需要语言理解的技术中，ChatGLM-6B 的能力取决于它的训练数据和具体的实现方式，通常能够处理复杂的语言任务，提供有用和合理的回复。

把Stable Diffusion模型塞进iPhone里，做成APP一分钟出图

在 iPhone 上运行 Stable Diffusion 到底难不难？今天我们要介绍的这篇文章，作者给出了答案：不难，而且 iPhone 还剩余 50% 的性能。

FFmpeg AI推理+图形渲染的可定制GPU管线

点击上方“LiveVideoStack”关注我们 ▲扫描图中二维码或点击阅读原文▲ 了解音视频技术大会更多信息 // 编者按：FFmpeg作为业界广泛使用的转码平台，提供了丰富高效的视频处理能力。LiveVideoStackCon2022上海站大会我们邀请到了英伟达GPU计算专家王晓伟老师，结合具体项目实践为大家详细介绍如何在FFmpeg中开发一个包含AI推理+图形的完整GPU转码管线。文/王晓伟整理/LiveVideoStack 大家好，首先自我介绍一下，我是王晓伟，来自英伟达GPU计

PyTorch宣布支持苹果M1芯片GPU加速：训练快6倍，推理提升21倍

机器之心报道编辑：泽南、蛋酱对于 Mac 用户来说，这是令人激动的一天。今年 3 月，苹果发布了其自研 M1 芯片的最终型号 M1 Ultra，它由 1140 亿个晶体管组成，是有史以来个人计算机中最大的数字。苹果宣称只需 1/3 的功耗，M1 Ultra 就可以实现比桌面级 GPU RTX 3090 更高的性能。随着用户数量的增长，人们已经逐渐接受使用 M1 芯片的计算机，但作为一款 Arm 架构芯片，还有人在担心部分任务的兼容性问题。昨天，通过与苹果 Metal 团队工程师合作，PyTorc

使用ChatGLM记录

ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型，基于 General Language Model (GLM) 架构，具有 62 亿参数。结合模型量化技术，用户可以在消费级的显卡上进行本地部署（INT4 量化级别下最低只需 6GB 显存）。

【玩转 GPU】GPU开发实践：聚焦AI技术场景应用与加速

本文将探讨GPU开发实践，重点关注使用GPU的AI技术场景应用与开发实践。首先介绍了GPU云服务器在AIGC和工业元宇宙中的重要作用，然后深入讨论了GPU在AI绘画、语音合成等场景的应用以及如何有效地利用GPU进行加速。最后，总结了GPU并行执行能力的优势，如提高算力利用率和算法效率，卷积方式处理效率更高，现场分层分级匹配算法计算和交互，超配线程掩盖实验差距，以及tensor core增加算力峰值等。

torchpipe : Pytorch 内的多线程计算并行库

云端深度学习的服务的性能加速通常需要算法和工程的协同加速，需要模型推理和计算节点的融合，并保证整个“木桶”没有太明显的短板。

2024年2月深度学习的论文推荐

Searchformer是一个基于Transformer架构的人工智能模型，经过训练可以模拟A星寻路算法，在复杂的规划任务中实现更高的效率。它在Sokoban谜题中的表现优于A星，解决问题的准确率为93.7%，所需步骤减少26.8%。

「最佳实践」腾讯云 ES 8 向量化语义混合检索测试指南

本文描述问题及解决方法同样适用于腾讯云 Elasticsearch Service（ES）。

040

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐