开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

可从GPU上的矩阵乘法中获益的最小矩阵大小

是根据GPU的架构和性能来决定的。一般来说，GPU在进行矩阵乘法运算时，可以充分发挥其并行计算能力，从而加快计算速度。但是，如果矩阵太小，GPU的并行计算能力可能无法得到充分利用，反而会因为数据传输和调度等开销导致计算速度变慢。

具体来说，GPU的并行计算能力主要体现在同时处理多个线程和数据的能力上。矩阵乘法是一个典型的并行计算任务，可以将矩阵的每个元素看作一个独立的计算任务，通过并行处理多个计算任务来提高计算速度。然而，GPU的并行计算能力是有限的，需要合理利用才能发挥最佳性能。

一般来说，当矩阵的大小超过一定阈值时，GPU的并行计算能力才能得到充分利用。这个阈值取决于GPU的架构和性能。对于不同的GPU型号和厂商，这个阈值可能会有所不同。

在实际应用中，为了获得最佳性能，可以通过实验和性能测试来确定最小矩阵大小。可以从小到大逐渐增加矩阵的大小，观察计算时间的变化。当矩阵大小超过某个阈值后，计算时间不再显著减少，这个阈值就可以作为可从GPU上的矩阵乘法中获益的最小矩阵大小。

总结起来，可从GPU上的矩阵乘法中获益的最小矩阵大小取决于GPU的架构和性能，需要通过实验和性能测试来确定。在实际应用中，可以逐渐增加矩阵的大小，观察计算时间的变化，找到一个阈值作为最小矩阵大小。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

谷歌硬件工程师揭秘，TPU为何会比CPU、GPU快30倍？

在谷歌发布TPU一年后，这款机器学习定制芯片的神秘面纱终于被揭开了。昨日，谷歌资深硬件工程师Norman Jouppi刊文表示，谷歌的专用机器学习芯片TPU处理速度要比GPU和CPU快15-30倍（

RTX 40时代，给深度学习买的显卡居然能保值9年？仔细一算绷不住了

选自timdettmers.com 作者：Tim Dettmers 机器之心编译编辑：泽南 FP8 训练带来的速度提升可能要一统 AI 领域，但这是我要考虑的问题吗？深度学习对于算力的要求很高，对于个人来说，GPU 的选择很大程度上决定了你的工作、学习体验。显卡既贵又复杂，如果想购买新的 GPU，哪些功能最重要？内存、核心、Tensor Core 还是缓存？如何做出性价比高的选择？每出一代新 GPU 这些问题就要重新审视一番。近日，华盛顿大学在读博士 Tim Dettmers 通过一篇长文在 RTX

04

PyTorch团队重写「分割一切」模型，比原始实现快8倍

从年初到现在，生成式 AI 发展迅猛。但很多时候，我们又不得不面临一个难题：如何加快生成式 AI 的训练、推理等，尤其是在使用 PyTorch 的情况下。

01

如何在GPU上设计高性能的神经网络

gpu对于机器学习是必不可少的。可以通过AWS或谷歌cloud轻松地启动这些机器的集群。NVIDIA拥有业内领先的GPU，其张量核心为 V100和 A100加速哪种方法最适合你的神经网络?为了以最低的

01

FlashAttention2详解（性能比FlashAttention提升200%）

来源丨https://zhuanlan.zhihu.com/p/645376942

01

深入了解Google的第一个Tensor Processing Unit（TPU）

作者： Kaz Sato（谷歌云Staff Developer Advocate） Cliff Young（谷歌大脑软件工程师） David Patterson（谷歌大脑杰出工程师）谷歌搜索，街景，

06

业界 | Tensor Core究竟有多快？全面对比英伟达Tesla V100/P100的RNN加速能力

选自xcelerit 机器之心编译参与：蒋思源 RNN 是处理量化金融、风险管理等时序数据的主要深度学习模型，但这种模型用 GPU 加速的效果并不好。本文使用 RNN 与 LSTM 基于 Tenso

09

Winograd快速卷积解析

文章中蓝色背景内容为链接，部分站外链接无法从文章中直接跳转，若要访问请点击原文链接。

02

DeepMind攻克50年数学难题！AlphaZero史上最快矩阵乘法算法登Nature封面

---- 新智元报道编辑：David Joey 【新智元导读】DeepMind碾压人类高手的AI围棋大师AlphaZero，下一个目标是数学算法！现已发现50年以来最快的矩阵乘法算法。下围棋碾压人类的AlphaZero，开始搞数学算法了，先从矩阵乘法开始！在昨天DeepMind团队发表在Nature上的论文中，介绍了 AlphaTensor，这是第一个用于为矩阵乘法等基本计算任务发现新颖、高效、正确算法的AI系统。论文链接： https://www.nature.com/article

03

01-PyTorch基础知识：安装PyTorch环境和张量Tensor简介

本文为PyTorch Fundamentals[1]的学习笔记，对原文进行了翻译和编辑，本系列课程介绍和目录在《使用PyTorch进行深度学习系列》课程介绍[2]。文章将最先在我的博客[3]发布，其他平台因为限制不能实时修改。在微信公众号内无法嵌入超链接，可以点击底部阅读原文[4]获得更好的阅读体验。

01

一番实验后，有关Batch Size的玄学被打破了

关注并星标从此不迷路计算机视觉研究院公众号ID｜ComputerVisionGzq 学习群｜扫码在主页获取加入方式计算机视觉研究院专栏作者：Edison_G 有关 batch size 的设置范围，其实不必那么拘谨。我们知道，batch size 决定了深度学习训练过程中，完成每个 epoch 所需的时间和每次迭代（iteration）之间梯度的平滑程度。batch size 越大，训练速度则越快，内存占用更大，但收敛变慢。又有一些理论说，GPU 对 2 的幂次的 batch 可以发挥

02

01-PyTorch基础知识：安装PyTorch环境和张量Tensor简介

本文为PyTorch Fundamentals[1]的学习笔记，对原文进行了翻译和编辑，本系列课程介绍和目录在《使用PyTorch进行深度学习系列》课程介绍[2]。文章将最先在我的博客[3]发布，其他平台因为限制不能实时修改。在微信公众号内无法嵌入超链接，可以点击底部阅读原文[4]获得更好的阅读体验。

01

2023「炼丹」GPU选购指南来了：英伟达3080和4070Ti成性价比之王

Alex 发自凹非寺量子位 | 公众号 QbitAI 春暖花开，各位深度学习er想不想给自己的“丹炉”升级一波？ “炼丹”爱好者们应该知道，在该领域中，**GPU的总体表现完胜CPU。那么GPU应该怎么选？不妨来看看这篇超级详尽的“2023版GPU选购指南”。知名测评博主、华盛顿大学在读博士Tim Dettmers亲测后，写下万字长文，手把手教你Pick性价比最高的显卡，避免踩雷。 △光是目录就有这么长…… 至于谁是性价比之王，不卖关子，这里先放上Tim哥的结论：对于16位训练过程，RTX 30

06

FlattenQuant | 推动低比特量化技术突破，大幅提升大型语言模型的计算效率和部署性能！

大型语言模型（LLM）的卓越能力近年来产生了重大影响（OpenAI, 2023; Ge等人，2023; Zhao等人，2023）。各种LLM已经被发布并在现实世界的生产环境中得到应用（Eloundou等人，2023）。因此，对于LLM的部署有着广泛的需求。

01

比标准Attention提速5-9倍，大模型都在用的FlashAttention v2来了

近来，几种长上下文语言模型陆续问世，包括 GPT-4（上下文长度为 32k）、MosaicML 的 MPT（上下文长度为 65k）Anthropic 的 Claude（上下文长度为 100k）。长文档查询和故事写作等新兴用例已经表明扩展语言模型上下文窗口是非常必要的。

05

你的batch size是2次方吗？奇葩选手：我用2的8.5次方

---- 新智元报道编辑：LRS 【新智元导读】你的batch size是多少？最近有大佬做实验表示没必要非得2次方，训练速度影响微乎其微，但评论区却吵翻天了！你有没有疑惑过，为啥batch size都是2的幂数？有人觉得是「习惯」，也有人说这算是一种约定俗成的标准，因为从「计算」的角度来看，batch size为2的幂数有助于提高训练效率。但计算机科学就是一门实践的学科，理论再完美也需要实验结果来验证。最近一位AI研究者Sebastian动手试了一下所有的batch size，结果发

02

业界 | 百度开源新一代深度学习硬件测试工具：覆盖Titan Xp到iPhone7

选自Baidu Research 机器之心编译今天，百度研究院开源了新一代 DeepBench，一款深度学习基准测试工具，这次升级加入了推理测量等功能。 1. 介绍 2016 年 9 月，百度推出了第一版 DeepBench，它是一个开源基准测试工具，用于测试训练深度学习神经网络的基本性能指标，可兼容不同硬件平台上的神经网络库。 DeepBench GitHub 地址：https://github.com/baidu-research/DeepBench DeepBench 的主要目的是测试深度学习系统在

08

教程 | 基础入门：深度学习矩阵运算的概念和代码实现

选自Medium 机器之心编译参与：蒋思源本文从向量的概念与运算扩展到矩阵运算的概念与代码实现，对机器学习或者是深度学习的入门者提供最基础，也是最实用的教程指导，为以后的机器学习模型开发打下基础。在我们学习机器学习时，常常遇到需要使用矩阵提高计算效率的时候。如在使用批量梯度下降迭代求最优解时，正规方程会采用更简洁的矩阵形式提供权重的解析解法。而如果不了解矩阵的运算法则及意义，甚至我们都很难去理解一些如矩阵因子分解法和反向传播算法之类的基本概念。同时由于特征和权重都以向量储存，那如果我们不了解矩阵运算

一番实验后，有关Batch Size的玄学被打破了

作者：Sebastian Raschka 机器之心编译编辑：泽南有关 batch size 的设置范围，其实不必那么拘谨。我们知道，batch size 决定了深度学习训练过程中，完成每个 epoch 所需的时间和每次迭代（iteration）之间梯度的平滑程度。batch size 越大，训练速度则越快，内存占用更大，但收敛变慢。又有一些理论说，GPU 对 2 的幂次的 batch 可以发挥更好性能，因此设置成 16、32、64、128 … 时，往往要比设置为其他倍数时表现更优。后者是否是一种玄

02

一番实验后，有关Batch Size的玄学被打破了

点击上方↑↑↑“OpenCV学堂”关注我来源：公众号机器之心授权有关 batch size 的设置范围，其实不必那么拘谨。我们知道，batch size 决定了深度学习训练过程中，完成每个 epoch 所需的时间和每次迭代（iteration）之间梯度的平滑程度。batch size 越大，训练速度则越快，内存占用更大，但收敛变慢。又有一些理论说，GPU 对 2 的幂次的 batch 可以发挥更好性能，因此设置成 16、32、64、128 … 时，往往要比设置为其他倍数时表现更优。后者是否是一种

【源头活水】再战Transformer！Mamba 2来了，新架构训练效率大幅提升！！！

“问渠那得清如许，为有源头活水来”，通过前沿领域知识的学习，从其他研究领域得到启发，对研究问题的本质有更清晰的认识和理解，是自我提高的不竭源泉。为此，我们特别精选论文阅读笔记，开辟“源头活水”专栏，帮助你广泛而深入的阅读科研文献，敬请关注！

01

深度学习GPU选购指南：哪款显卡配得上我的炼丹炉？

---- 新智元报道编辑：Joey David 【新智元导读】最近，曾拿到斯坦福、UCL、CMU、NYU博士offer、目前在华盛顿大学读博的知名测评博主Tim Dettmers在自己的网站又上线了深度学习领域的GPU深度测评，到底谁才是性能和性价比之王？众所周知，在处理深度学习和神经网络任务时，最好使用GPU而不是CPU来处理，因为在神经网络方面，即使是一个比较低端的GPU，性能也会胜过CPU。深度学习是一个对计算有着大量需求的领域，从一定程度上来说，GPU的选择将从根本上决定深度学习的体

03

硬件高效的线性注意力机制Gated Linear Attention论文阅读

上篇文章 flash-linear-attention中的Chunkwise并行算法的理解根据GLA Transformer Paper（https://arxiv.org/pdf/2312.06635 作者是这位大佬 @sonta）通过对Linear Attention的完全并行和RNN以及Chunkwise形式的介绍理解了Linear Attention的Chunkwise并行算法的原理。但是paper还没有读完，后续在paper里面提出了Gated Linear Attention Transformer，它正是基于Chunkwise Linear Attention的思想来做的，不过仍有很多的工程细节需要明了。这篇文章就来继续阅读一下paper剩下的部分，把握下GLA的计算流程以及PyTorch实现。下面对Paper的第三节和第四节进行理解，由于个人感觉Paper公式有点多，所以并没有对paper进行大量直接翻译，更多的是读了一些部分之后直接大白话一点写一下我对各个部分的理解和总结。这样可能会忽略一些细节，建议读者结合原Paper阅读。

01

用什么tricks能让模型训练得更快？先了解下这个问题的第一性原理

点击上方↑↑↑“OpenCV学堂”关注我来源：公众号机器之心授权深度学习是门玄学？也不完全是。每个人都想让模型训练得更快，但是你真的找对方法了吗？在康奈尔大学本科生、曾在 PyTorch 团队实习的 Horace He 看来，这个问题应该分几步解决：首先，你要知道为什么你的训练会慢，也就是说瓶颈在哪儿，其次才是寻找对应的解决办法。在没有了解基本原理（第一性原理）之前就胡乱尝试是一种浪费时间的行为。在这篇文章中，Horace He 从三个角度分析可能存在的瓶颈：计算、内存带宽和额外开销，并提供了一些

01

用什么tricks能让模型训练得更快？先了解下这个问题的第一性原理

选自horace博客作者：Horace He 机器之心编译编辑：Juniper 深度学习是门玄学？也不完全是。每个人都想让模型训练得更快，但是你真的找对方法了吗？在康奈尔大学本科生、曾在 PyTorch 团队实习的 Horace He 看来，这个问题应该分几步解决：首先，你要知道为什么你的训练会慢，也就是说瓶颈在哪儿，其次才是寻找对应的解决办法。在没有了解基本原理（第一性原理）之前就胡乱尝试是一种浪费时间的行为。在这篇文章中，Horace He 从三个角度分析可能存在的瓶颈：计算、内存带宽和额外开销

03

用什么tricks能让模型训练得更快？先了解下这个问题的第一性原理

来源：机器之心本文约5200字，建议阅读10+分钟深度学习是门玄学？也不完全是。每个人都想让模型训练得更快，但是你真的找对方法了吗？在康奈尔大学本科生、曾在 PyTorch 团队实习的 Horace He 看来，这个问题应该分几步解决：首先，你要知道为什么你的训练会慢，也就是说瓶颈在哪儿，其次才是寻找对应的解决办法。在没有了解基本原理（第一性原理）之前就胡乱尝试是一种浪费时间的行为。在这篇文章中，Horace He 从三个角度分析可能存在的瓶颈：计算、内存带宽和额外开销，并提供了一些方式去判断当前处于哪

02

从GPU的内存访问视角对比NHWC和NCHW

NHWC和NCHW是卷积神经网络(cnn)中广泛使用的数据格式。它们决定了多维数据，如图像、点云或特征图如何存储在内存中。

05

【他山之石】Mamba 2模型携SSD算法，让长序列处理更高效，一举解决AI大模型的效率痛点！

“他山之石，可以攻玉”，站在巨人的肩膀才能看得更高，走得更远。在科研的道路上，更需借助东风才能更快前行。为此，我们特别搜集整理了一些实用的代码链接，数据集，软件，编程技巧等，开辟“他山之石”专栏，助你乘风破浪，一路奋勇向前，敬请关注！

01

研学社·系统组 | 实时深度学习的推理加速和持续训练

机器之心原创作者：Yanchen Wang 参与：蒋思源、李亚洲作者 Yanchen 毕业于普林斯顿大学机器学习方向，现就职于微软Redmond总部，从事大规模分布式机器学习和企业级AI研发工作。在该篇文章中，作者介绍了实时深度学习的推理加速和持续性训练。引言深度学习变革了许多计算机视觉和自然语言处理（NLP）领域内的任务，它为越来越多的消费者和工业产品提供更强大的智能，并潜在地影响了人们在日常经验和工业实践上的标准流程。从理论上来说，深度学习和其他基于统计机器学习方法的自动化系统十分类似，它们都可

09

Python CUDA 编程 - 6 - 共享内存

GPU的内存结构如图所示：GPU的计算核心都在Streaming Multiprocessor（SM）上，SM里有计算核心可直接访问的寄存器（Register）和共享内存（Shared Memory）；多个SM可以读取显卡上的显存，包括全局内存（Global Memory）。

01

再战Transformer！原作者带队的Mamba 2来了，新架构训练效率大幅提升

自 2017 年被提出以来，Transformer 已经成为 AI 大模型的主流架构，一直稳居语言建模方面 C 位。

01

OpenAI：训练大型神经网络的四种基本方法

来源 | OpenAI 编译 | 黄楠编辑 | 陈彩娴大型神经网络是当前人工智能领域的热门话题之一，那么，如何训练大模型？最近，曾推出大规模预训练模型 GPT-3 的 OpenAI 发表了一篇博文，介绍了基于 GPU 的四种节省内存的并行训练方法，分别是：数据并行——在不同的 GPU 上运行同一批次的不同子集；流水线并行——在不同的 GPU 上运行模型的不同层；张量并行——分解单个运算的数学运算，例如将矩阵乘法拆分到 GPU 上；专家混合（MOE）——仅通过每层的一小部分处理每个示例。图注

04

使用 TensorFlow 和 Python 进行深度学习(附视频中字)

TensorFlow是谷歌研发的开源框架。本讲座介绍了如何使用TensorFlow创建深度学习应用程序，以及与其他Python机器学习库进行比较。我叫Ian Lewis，我是谷歌云平台团队的开发者大

09

AlphaTensor横空出世！打破矩阵乘法计算速度50年纪录，DeepMind新研究再刷Nature封面，详细算法已开源

羿阁萧箫发自凹非寺量子位 | 公众号 QbitAI 什么，AI竟然能自己改进矩阵乘法，提升计算速度了？！还是直接打破人类50年前创下的最快纪录的那种。要知道，矩阵乘法可是计算机科学中最基础的数学算法之一，也是各种AI计算方法的基石，如今计算机处理图像语音、压缩数据等全都离不开它。但自从德国数学家沃尔克·施特拉森（Volker Strassen）在1969年提出“施特拉森算法”后，矩阵乘法的计算速度一直进步甚微。现在，这只新出炉的AI不仅改进了目前最优的4×4矩阵解法（50年前由施特拉森提出）

02

深度学习GPU最全对比，到底谁才是性价比之王？ | 选购指南

张量核心、显存带宽、16位能力……各种纷繁复杂的GPU参数让人眼花缭乱，到底怎么选？

01

深度学习中的基础线代知识-初学者指南

导语：在经过一天之后，我们的活动人数已经达到40人了，感谢大家对小编的支持，同时在本文末附上前一天的众筹榜单。希望能跟小伙伴们度过愉快的6天！上过 Jeremy Howard 的深度学习课程后，我意

06

【译】开始在web中使用CPU计算

本文是关于我使用实验性的WebGPU API并与有兴趣使用GPU进行数据并行计算的Web开发人员分享我的旅程。

02

深度学习GPU最全对比，到底谁才是性价比之王？ | 选购指南

张量核心、显存带宽、16位能力……各种纷繁复杂的GPU参数让人眼花缭乱，到底怎么选？

04

OpenGL坐标转换推导（十一）

之前我们已经提到在OpenGL中，所有物体都是在一个3D空间里的，但是屏幕都是2D像素数组，所以OpenGL会把3D坐标转变为适应屏幕的2D像素，最终投射到2D的屏幕上去。所以对于每一个顶点坐标都会依次进行model、view、projection三种变换。这三种变换实现代码如下：

07

芯片战争早已打响！谷歌15个月打造首个TPU，欲和老黄平起平坐

多数人可能都了解，在神经网络近70年的历史中，寒冬和泡沫交替出现，——事实上，藏在神经网络背后的专用硬件加速器（ASIC）也是如此。

01

有钱任性：英伟达训练80亿参数量GPT-2，1475块V100 53分钟训练BERT

2）将 BERT 的推理时间缩短到了 2.2 毫秒（10 毫秒已经是业界公认的高水平）；

02

CNN加速器设计新突破，逼近能效理论极限

2020年4月12日上午，北京智源人工智能研究院和北京大学高能效计算与应用中心联合主办了“AI芯片体系架构和软件专题报告会”，五位学者结合在2020年计算机体系结构顶级会议（ASPLOS和HPCA）中发表的最新研究成果。本文介绍智源青年科学家、中国科学院计算技术研究所副研究员陈晓明的《Communication Lower Bound in Convolution Accelerators》（卷积加速器中的通信下界）。

04

从「根」上找出模型瓶颈！康奈尔AI联合创始人发文，从第一原理出发剖析深度学习

---- 新智元报道编辑：LRS 【新智元导读】了解事物的底层逻辑才能更好地解决问题。康奈尔大学AI联合创始人最近发了一篇文章，从第一原理出发，深度剖析深度学习性能瓶颈的三座大山：计算、内存和开销。如果想提升模型的性能，你的第一直觉是问搜索引擎吗？通常情况下你得到的建议只能是一些技巧性的操作，比如使用in-place operation，把梯度设置为None，或者是把PyTorch版本从1.10.1退回到稳定版1.10.0等等。这些临时找到的骚操作虽然可以一时地解决当下问题，但要是用了以后

02

如何让CNN高效地在移动端运行

COMPRESSION OF DEEP CONVOLUTIONAL NEURAL NETWORKS FOR FAST AND LOW POWER MOBILE APPLICATIONS【ICLR 2016】

04

矩阵乘法无需相乘，速度提升100倍，MIT开源最新近似算法 | ICML 2021

萧箫发自凹非寺量子位报道 | 公众号 QbitAI 在不做乘加操作（multiply-adds）的情况下，能计算矩阵乘法吗？矩阵乘法包含大量a+b×c类运算，因此常在运算中将乘法器和加法器进行结合成一个计算单元，进行乘法累加操作。用近似算法的话，确实可以！这是来自MIT的最新研究，他们提出了一种新的近似算法MADDNESS，在确保一定精度的情况下，将速度提升到了现有近似算法的10倍，比精确算法速度快100倍，被ICML 2021收录。研究还认为，新算法可能比最近大火的稀疏化、因子化等操作

03

一文读懂深度学习中的各种卷积！！

我们都知道卷积的重要性，但你知道深度学习领域的卷积究竟是什么，又有多少种类吗？研究学者Kunlun Bai发布了一篇介绍深度学习的卷积文章，用浅显易懂的方式介绍了深度学习领域的各种卷积及其优势。

01

问答 | 如何理解 NVIDIA 新 GPU 架构 Turing 的 Tensor Core？

问：如何理解 NVIDIA 新 GPU 架构 Turing 的 Tensor Core？

04

【知识】详细介绍 CUDA Samples 示例工程

CUDA 是“Compute Unified Device Architecture (计算统一设备架构)”的首字母缩写。CUDA 是一种用于并行计算的 NVIDIA 架构。使用图形处理器也可以提高 PC 的计算能力。

01

AI部署篇 | CUDA学习笔记2：矩阵乘法与GPU优化(附CUDA代码)

获得 C 矩阵的计算方法都是相同的，只不过使用的是矩阵 A、B 不同的元素来进行计算，即不同数据的大量相同计算操作，这种计算是特别适合使用GPU来计算，因为GPU拥有大量简单重复的计算单元，通过并行就能极大的提高计算效率。

04

8张3090，1天压缩万亿参数大模型！3.2TB骤降至160GB，压缩率高达20倍

随着GPT-4的架构被知名业内大佬「开源」，混合专家架构（MoE）再次成为了研究的重点。

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭