在训练期间，一个gpu比其他gpu使用更多的内存_我们可以在使用GPU的机器上使用torch训练一个模型，然后在只使用CPU的机器上使用这个模型吗？ - 腾讯云开发者社区

对于这一问题，很多人都难以给出确切的回答，不知该如何计算 GPU 内存。因为查看 GPU 可以处理哪些 LLM 并不像查看模型大小那么容易，在推理期间（KV 缓存）模型会占用大量内存，例如，llama-2-7b 的序列长度为 1000，需要 1GB 的额外内存。不仅如此，模型在训练期间，KV 缓存、激活和量化都会占用大量内存。

RTX 40时代，给深度学习买的显卡居然能保值9年？仔细一算绷不住了

选自timdettmers.com 作者：Tim Dettmers 机器之心编译编辑：泽南 FP8 训练带来的速度提升可能要一统 AI 领域，但这是我要考虑的问题吗？深度学习对于算力的要求很高，对于个人来说，GPU 的选择很大程度上决定了你的工作、学习体验。显卡既贵又复杂，如果想购买新的 GPU，哪些功能最重要？内存、核心、Tensor Core 还是缓存？如何做出性价比高的选择？每出一代新 GPU 这些问题就要重新审视一番。近日，华盛顿大学在读博士 Tim Dettmers 通过一篇长文在 RTX

您找到你想要的搜索结果了吗？

是的

没有找到

你的GPU能跑Llama 2等大模型吗？用这个开源项目上手测一测

高性能PyTorch是如何炼成的？过来人吐血整理的10条避坑指南

如何用最少的精力，完成最高效的 PyTorch 训练？一位有着 PyTorch 两年使用经历的 Medium 博主最近分享了他在这方面的 10 个真诚建议。

高性能PyTorch是如何炼成的？过来人吐血整理的10条避坑指南

如何用最少的精力，完成最高效的 PyTorch 训练？一位有着 PyTorch 两年使用经历的 Medium 博主最近分享了他在这方面的 10 个真诚建议。

512块A100，AlphaFold训练时间从11天压缩至67小时：尤洋团队FastFold上线

机器之心报道编辑：小舟、蛋酱 AlphaFold 虽好，但耗时且成本高，现在首个用于蛋白质结构预测模型的性能优化方案来了。蛋白质结构预测一直是结构生物学中的一个重要的研究问题。直接从蛋白质的氨基酸序列预测蛋白质的三维结构在许多领域都有广泛的应用，包括药物设计、蛋白质设计等。预测蛋白质结构的方法主要有两种：实验方法和计算方法。实验方法需要以高昂的时间和经济成本获得更准确的蛋白质结构。计算方法则能够以低成本高吞吐量预测蛋白质结构，因此提高计算方法的预测精度至关重要。借助深度神经网络，AlphaFold

降龙十八掌：这套优化transformer内存占用的组合技值得收藏

峰值内存消耗是训练深度学习模型（如视觉 Transformer 和 LLM）时的常见瓶颈。本文提供了一系列可以在不牺牲建模性能和预测精度的情况下，将 PyTorch 中的内存消耗降低到约 1/20 的技术。

512块A100，AlphaFold训练时间从11天压缩至67小时：尤洋团队FastFold上线

关注并星标从此不迷路计算机视觉研究院公众号ID｜ComputerVisionGzq 学习群｜扫码在主页获取加入方式计算机视觉研究院专栏作者：Edison_G AlphaFold 虽好，但耗时且成本高，现在首个用于蛋白质结构预测模型的性能优化方案来了。机器之心报道蛋白质结构预测一直是结构生物学中的一个重要的研究问题。直接从蛋白质的氨基酸序列预测蛋白质的三维结构在许多领域都有广泛的应用，包括药物设计、蛋白质设计等。预测蛋白质结构的方法主要有两种：实验方法和计算方法。实验方法需要以高昂

用FP8训练大模型有多香？微软：比BF16快64%，省42%内存

大型语言模型（LLM）具有前所未有的语言理解和生成能力，但是解锁这些高级的能力需要巨大的模型规模和训练计算量。在这种背景下，尤其是当我们关注扩展至 OpenAI 提出的超级智能 (Super Intelligence) 模型规模时，低精度训练是其中最有效且最关键的技术之一，其优势包括内存占用小、训练速度快，通信开销低。目前大多数训练框架（如 Megatron-LM、MetaSeq 和 Colossal-AI）训练 LLM 默认使用 FP32 全精度或者 FP16/BF16 混合精度。

谷歌TPU2代有望取代英伟达GPU？测评结果显示…

去年5月，谷歌推出了第二代TPU芯片，这是一个自定义开发的深度学习加速芯片，不少人认为有望成为英伟达GPU的替代品。

PyTorch神经网络的高效训练指南！

本文介绍在使用 PyTorch 高效训练深度学习模型的 17 种方法。该文所提方法，都是假设你在 GPU 环境下训练模型。关于pytorch-GPU的介绍可以参考文章：深度学习GPU环境配置及建模（Python）

大模型开发者必备手册：这些数字值得记住 | GitHub 1200星

克雷西发自凹非寺量子位 | 公众号 QbitAI GPT-4的使用成本，竟然是GPT-3.5的50倍之多；而让大语言模型同时处理25个请求的时间，仅是处理单个请求的2倍…… 这些数据听上去可能有些出乎意料，但都是真实的。它们出自一篇名为《大语言模型（LLM）开发者必须知道的数字》的GitHub文章。文章发布之后仅1天，便获得了1200次星标。文章基于真实的开发经验，介绍了提示工程、硬件资源、价格等方面的数据。就算没有成为开发者的打算，拿来扩充一下知识储备也是极好的。都有哪些数字值得关注

[论文翻译] 分布式训练 Parameter sharding 之 ZeRO

Parameter sharding 就是把模型参数等切分到各个GPU之上，以此达到使用较少GPU实现大规模模型训练的目的。本系列会以 Google，微软和Facebook的论文，博客以及代码来对parameter sharding 进行分析，大约有 5～6篇文章。

ChatGPT平替「小羊驼」Mac可跑！2行代码单GPU，UC伯克利再发70亿参数开源模型

---- 新智元报道编辑：桃子好困【新智元导读】130亿参数模型权重公布不久，UC伯克利LMSys org再次发布了70亿参数「小羊驼」。同在今天，Hugging Face也发布了70亿参数模型StackLLaMA。自从Meta发布「开源版ChatGPT」LLaMA之后，学界可谓是一片狂欢。先是斯坦福提出了70亿参数Alpaca，紧接着又是UC伯克利联手CMU、斯坦福、UCSD和MBZUAI发布的130亿参数Vicuna，在超过90%的情况下实现了与ChatGPT和Bard相匹敌的能力。

用上Pytorch Lightning的这六招，深度学习pipeline提速10倍！

金磊发自凹非寺量子位报道 | 公众号 QbitAI 面对数以亿计的图片数据，到底该用什么样的方法才能快速搞实验？这样的问题，或许在做机器学习研究的你，也会经常遇到。而就在最近，一个国外小哥就提出了一种建议：在Pytorch lightning基础上，让深度学习pipeline速度提升10倍！用他自己的话来说就是——“爬楼时像给了你一个电梯”。这般“酸爽”，到底是如何做到的呢？优化机器学习pipeline，很重要无论你是身处学术界还是工业界，时间和资源等各种因素，往往会成为你在搞实验

提高CV模型训练性能的 9 个技巧

本文主要想分享一些可能有助于提高计算机视觉任务模型训练速度和准确性的一般技巧或建议，这些建议是通过课程、阅读顶级文章或论文学习所得来的。

如何用Amazon SageMaker 做分布式 TensorFlow 训练？（千元亚马逊羊毛可薅）

TensorFlow 是广泛被用于开发大型深度神经网络 (DNN) 的开放源机器学习 (ML) 库，此类 DNN 需要分布式训练，并且在多个主机上使用多个 GPU。Amazon SageMaker 是一项托管服务，可通过主动学习、超参数优化、模型分布式训练、监控训练进展，部署培训模型作为自动扩展的 RESTful 服务，以及对并发 ML 实验进行集中式管理，从标签数据开始简化 ML 工作流。

独家 | 如何在GPU资源受限情况下微调超大模型

作者：Stanislav Belyasov 翻译：陈之炎校对：赵茹萱本文约4000字，建议阅读8分钟本文给出了高效使用内存的关键概念，它适用于多种艰巨的任务。在训练模型过程中，细数那些完胜“CUDA 内存出错..”报错的提高内存效率技术。提问：模型大小超过GPU 容量怎么办？本文的灵感来自于Yandex数据分析学院教授的“高效深度学习系统”课程。预备知识：假设读者已经了解神经网络的前传递和后向传递的工作原理，这对理解本文内容至关重要。文中使用PyTorch作为框架。开始吧！当试图使用大型模

GPU捉襟见肘还想训练大批量模型？谁说不可以

2018 年的大部分时间我都在试图训练神经网络时克服 GPU 极限。无论是在含有 1.5 亿个参数的语言模型（如 OpenAI 的大型生成预训练 Transformer 或最近类似的 BERT 模型）还是馈入 3000 万个元素输入的元学习神经网络（如我们在一篇 ICLR 论文《Meta-Learning a Dynamical Language Model》中提到的模型），我都只能在 GPU 上处理很少的训练样本。

Llama 2第二波划重点：过于「谨慎」、代码生成改进空间大

有人发现，Llama-2-chat 在安全过滤器方面表现出一些过于敏感的行为。即使是询问一些无害的事情，比如「如何制作辣椒蛋黄酱」或「如何终止一个进程」，结果会导致该模型疯狂地表示它无法做到，如下图所示：

OpenMMLab 第二版发布：吸引业界「目光」的史上最完整的目标检测工具箱

AI 科技评论按：去年 10 月，香港中文大学-商汤联合实验室在 OpenMMLab 的首版计划中，开放了 MMCV 和 MMDetection（初期版本）。其初衷是为了在计算机视觉的一些重要方向建立统一而开放的代码库，并不断把新的算法沉淀其中。在过去的半年多时间，这些代码库已经产生了重要影响，越来越多的 MMLab 以外的研究团队开始把 MMDetection 作为实现新的目标检测算法的基础，并不断将其新算法回馈到 MMDetection 中。

业界 | OpenMMLab 第二版发布：吸引业界「目光」的史上最完整的目标检测工具箱

微软发布史上最大NLG模型：基于Transformer架构，170亿参数加持

近年来，BERT、GPT-2等深度学习语言模型，极大地提高了问答、摘要、人机对话等下游自然语言处理任务的性能。

ZeRO & DeepSpeed：可以让训练模型拥有超过1000亿个参数的优化（微软）

近日，微软发布了一个名为DeepSpeed的开源库，该库通过提高规模、速度、成本和可用性，极大地推进了大型模型的训练，释放了训练1000亿个参数模型的能力。DeepSpeed可与PyTorch兼容。

多GPU通信效率提升4倍，RLHF生成提升2.25倍！DeepSpeed ZeRO++重磅升级

过去半年，由ChatGPT引领的生成式大型语言模型技术，以其强大的「通用性」彻底颠覆了AI世界，普通人也可以很容易地使用AI工具来进行摘要、灵感创作、辅助编程、多语言翻译等任务。

大规模神经网络最新文献综述：训练高效DNN、节省内存使用、优化器设计

来源：数学中国本文约3200字，建议阅读5分钟在本综述论文中，研究者解释了不同技术的工作原理、评估和比较，还分析了一些实现这些技术的框架。现代深度学习和人工智能技术的发展涉及使用深度神经网络（DNN）来解决图像、视频、音频、自然语言处理、图像形式的内容生成等各种问题，或生成给定格式主题的文本等任务。俄罗斯斯科尔科沃科学技术研究所、法国里尔大学、波尔多大学、Inria 等科研机构联合发表了一篇论文《Survey on Large Scale Neural Network Training》，它试图解决的问

【在线视频】如何在GPU上进行混合精度训练

使用精度低于FP32的系统可以减少内存使用，允许部署更大的网络。数据传输需要更少的时间，而且计算性能会提高，尤其是在NVIDIA gpu上，它的Tensor Core支持这种精度。DNNs的混合精度训练实现了两个主要目标:

卷积神经网络

010

1分钟训练百万级别节点嵌入，加拿大Mila研究所开源图嵌入训练系统GraphVite

图是一种通用、灵活的数据结构，可以用来编码不同对象之间的关系，并且在现实世界中非常普遍，如社交网络、引文图、蛋白质相互作用图、知识图谱等，涵盖了多个应用和领域。最近，由于图在多个任务中表现出色，越来越多的研究人员开始尝试学习图的有效表征。然而，这是一个颇具挑战性的问题，因为现实世界中的图可能非常庞大，并且是异质的。因此，业界和学界的不同任务和应用都迫切需要可扩展的通用图表征系统。

【重磅】深度强化学习的加速方法

“深度强化学习一直以来都以智能体训练时间长、计算力需求大、模型收敛慢等而限制很多人去学习，比如：AlphaZero训练3天的时间等，因此缩短训练周转时间成为一个重要话题。深度强化学习大神Pieter Abbeel最近发表了深度强化学习的加速方法，他从整体上提出了一个加速深度强化学习周转时间的方法，成功的解决了一些问题，Pieter Abbeel，伯克利大学教授，也是强化学习的重要科学家之一。”

推理飙升2倍！普林斯顿北大校友祭出多头「美杜莎」，33B模型与13B一样快

对此，很多大佬都在寻找一种挽救的方法。Karpathy曾多次提出，大模型「投机采样」对于推理时间优化是一个出色的方案。

IJCAI2023 | 高效训练Transformers的方法

深度学习是近年来最重要的方法之一，它彻底改变了机器学习和人工智能，并引领着第四次工业革命。训练GPT-3（1750亿参数）需要355个GPU年，并且至少花费460万美元。

2万元「煤气灶」Titan RTX做深度学习？机器之心为读者们做了个评测

2018 年 12 月，英伟达在加拿大蒙特利尔 NeurIPS 大会上发布最新款产品 Titan RTX，作为 2017 年 Titan V 的「继承者」，Titan RTX 价格更低，显存更大，性能更强，且使用图灵架构，具备强大的光线追踪能力。因此，Titan RTX 的发布对 AI 社区而言，是不是做深度学习的一个不错选择呢？

RetNet：万众期待的 Transformers 杀手

Transformer 已成为大语言模型上的架构，因为它有效地克服了循环神经网络 (RNN) 的顺序训练问题。然而，Transformer也并不完美，因为它们仅解决了所谓“impossible triangle”的两条臂。微软的 RetNet 声称位于这个“impossible triangle”的正中心，胜过了所有尝试过但未能实现这一壮举的方法。突破：

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐