开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

CUDA 8.0，GTX 1080，为什么矢量加法比矩阵乘法慢5倍？

CUDA 8.0是一种用于GPU加速计算的并行计算平台和编程模型。它允许开发人员使用通用编程语言（如C++）来利用GPU的并行计算能力，从而加速各种计算任务。

GTX 1080是一款由NVIDIA推出的高性能图形处理器（GPU），它具有较高的计算能力和内存带宽，适用于各种计算密集型任务。

矢量加法和矩阵乘法是常见的并行计算任务。矢量加法是将两个矢量中对应位置的元素相加，而矩阵乘法是将两个矩阵相乘得到一个新的矩阵。

矢量加法比矩阵乘法慢5倍的原因主要有以下几点：

计算复杂度：矩阵乘法的计算复杂度较高，通常为O(n^3)，其中n表示矩阵的维度。而矢量加法的计算复杂度较低，通常为O(n)，其中n表示矢量的长度。因此，在相同规模的计算任务下，矩阵乘法需要更多的计算资源和时间。
数据访问模式：矩阵乘法的计算过程中需要频繁地访问内存中的数据，而内存访问通常是计算任务中的瓶颈。相比之下，矢量加法的计算过程中数据访问模式较为简单，可以更好地利用缓存和内存带宽。
并行性：矩阵乘法的计算过程中存在较多的数据依赖关系，难以实现高效的并行计算。而矢量加法的计算过程中各个元素之间相互独立，可以更容易地实现并行计算。

综上所述，矢量加法比矩阵乘法慢5倍的原因主要是计算复杂度、数据访问模式和并行性的差异。在实际应用中，可以根据具体的计算任务选择合适的计算方式以提高计算效率。

腾讯云提供了一系列与GPU加速计算相关的产品和服务，例如GPU云服务器、GPU容器服务等。您可以通过访问腾讯云官方网站（https://cloud.tencent.com/）了解更多相关信息。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

新显卡出世，我们来谈谈与深度学习有关的显卡架构和相关技术

核心面积上GTX 1080 Ti比GTX 1080大了50%，CUDA核心数量也多了近67%，光栅、纹理单元也都有近40%的提升。...2、频率方面：GTX 1080 Ti就没有GTX 1080高了，基础频率1480MHz，Boost频率1584MHz，比GTX 1080低了9%左右。...显存方面GTX 1080 Ti和GTX 1080同为GDDR5X，不过显存容量、频率、位宽都有大幅的增长，这也使得GTX 1080 Ti的显存带宽到达了惊人的484GB/s，比Titan X Pascal...4、价格方面：GTX 1080 Ti可谓诚意十足，规格上的大幅领先却只比GTX 1080贵了400元，再看和GTX 1080 Ti规格近似的Titan X Pascal就要贵出4000元。...FP16 的乘法得到了一个全精度结果，该结果在 FP32 和其他给定的 4x4x4 矩阵乘法点积的乘积运算之中进行累加。

3.4K1 0

不用老黄上场，看我如何用GTX1080来撕谷歌的TPU

也就是这8次乘法和加法操作, 可以在一起被打包完成. 而且这么一堆运算, 也是单周期就可以完成的(从每线程, 吞吐率的角度说). 也只和一个单精度的float乘加操作的代价一样快....(注意需要CUDA8.0正式版, 部分8.0测试版和RC还不能支持它)....这等于亲之前手工的D =A.x * B.x + A.y * B.y + A.z * B.z + A.w * B.w + C;这么一堆的乘法和加法, 是等价的. 但至少会快400%, 甚至更多....此特性给GTX1080带来了什么?...两张GTX1080ti即可顶上TPU的92Tops 所以你看, 所谓TPU的15到30倍的说法, 实际对于NVIDIA的GTX1080来说, 这只有2倍的.

3.7K11 0

教程 | 从硬件配置、软件安装到基准测试，1700美元深度学习机器构建指南

GPU 很重要是因为：a) 深度学习中绝大部分计算都是矩阵运算，比如矩阵乘法之类。而用 CPU 进行这类运算就会很慢。...在性能方面，GTX 1080 Ti 和 Titan X 较接近，粗略来看 GTX 1080 大约比 GTX 1070 快了 25%，而 GTX 1080 Ti 则比 GTX 1080 快乐 30% 左右...PATH=/usr/local/cuda-8.0/bin${PATH:+:${PATH}} export LD_LIBRARY_PATH=/usr/local/cuda-8.0/lib64\ ${LD_LIBRARY_PATH...训练该模型时，GTX 1080 Ti 比 AWS P2 的 K80 要快 2.4 倍。这是让人感到惊讶的结果，因为通常说来这二者的表现应该差不多。...GTX 1080Ti 比 AWS P2 K80 快了 4.3 倍。这次 CPU 比 GPU 慢了 30-50 倍，已经比在 VGG 任务中的表现好多了，但仍然比 MNIST 多层感知机实验结果慢。

1.1K5 0

玩深度学习选哪块英伟达 GPU？有性价比排名还不够！

举个例子，如果你有大小不同的全连接层或 dropout 层，Xeon Phi 比 CPU 还要慢。我在独立矩阵乘法上重现了这个问题，并发给英特尔，但没有回音。...而 CPU 恰恰与此相反——如果只涉及少量内存，它能非常快速地做计算，比如个位数之间的乘法（3*6*9）。但是对于大量内存之上的运作，比如矩阵乘法（A*B*C），CPU 是非常慢的。...单独看显存带宽就可以直接判断它们在深度学习上的性能差距：GTX 1080 (320GB/s) 比 GTX 1070 (256 GB/s) 带宽快 25%，实际情况大约如是。...在这些领域，每一 GB 显存都有价值，而 Titan Xp 比 GTX 1080 Ti 多了 1GB。有了这两者，我不会推荐 Titan X (Pascal) 。...对我个人而言，会选择多个 GTX 1070 或 GTX 1080 来做研究。我宁愿多运行几个慢一点的试验，而不仅仅是运行一个更快的。

2.6K11 0

【指南】买家指南：挑选适合你的深度学习GPU

为什么深度学习需要GPU？哪个GPU规格很重要，为什么？在选择GPU时要注意什么？ GPU的性价比；关于预算的建议。 GPU + 深度学习 = ? （但是为什么呢？）...例如，增加几万或几十万个数字的矩阵。在幕后，DL主要由矩阵乘法之类的操作组成。有趣的是，3D电脑游戏依靠这些相同的操作来呈现你在《古墓丽影》中看到的美丽风景。...的VRAM很重要时，这张显卡比市场上的任何其他显卡都多。...这个价格有相当大的VRAM，但稍微慢一些。如果你能以一个好的价格买到二手的该显卡，那就去买吧。...我对GTX 1080 Ti与K40做了一些基准测试。1080比特斯拉显卡快5倍，比K80快2.5倍。K40有12 GB VRAM，K80的VRAM高达24 GB。

1.2K9 0

开发 | 除了性价比排名，如何选购深度学习 GPU

举个例子，如果你有大小不同的全连接层或 dropout 层，Xeon Phi 比 CPU 还要慢。我在独立矩阵乘法上重现了这个问题，并发给英特尔，但没有回音。...而 CPU 恰恰与此相反——如果只涉及少量内存，它能非常快速地做计算，比如个位数之间的乘法（3*6*9）。但是对于大量内存之上的运作，比如矩阵乘法（A*B*C），CPU 是非常慢的。...单独看显存带宽就可以直接判断它们在深度学习上的性能差距：GTX 1080 (320GB/s) 比 GTX 1070 (256 GB/s) 带宽快 25%，实际情况大约如是。...在这些领域，每一 GB 显存都有价值，而 Titan Xp 比 GTX 1080 Ti 多了 1GB。有了这两者，我不会推荐 Titan X (Pascal) 。...对我个人而言，会选择多个 GTX 1070 或 GTX 1080 来做研究。我宁愿多运行几个慢一点的试验，而不仅仅是运行一个更快的。

6.7K6 0

Titan XP值不值？一文教你如何挑选深度学习GPU

如，几十、几百或几千次矩阵乘法。在表象背后，深度学习多由矩阵乘法之类的操作组成。有趣的是，3D 电子游戏同样依赖这些操作来渲染那些美丽的风景。...注意 Titan XP 和 GTX 1080 Ti 尽管价格相差非常多，但它们的性能却非常相近。 ? 价格对比表明 GTX 1080 Ti、GTX 1070 和 GTX 1060 的性价比较高。...GTX 1080 Ti 参数：显存（VRAM）：11 GB 内存带宽：484 GB/s 处理器：3584 个 CUDA 核心 @ 1582 MHz（约 5.67 亿 CUDA 核心频率）英伟达官网价格...GTX 1080 参数：显存（VRAM）：8 GB 内存带宽：320 GB/s 处理器：2560 个 CUDA 核心 @ 1733 MHz（约 4.44 亿 CUDA 核心频率）英伟达官网价格：3600...它的显存配得上这个价位，就是速度有些慢。如果你能用较便宜的价格买到一两个二手的，那就下手吧。

8467 0

深度学习的GPU：深度学习中使用GPU的经验和建议

例如，如果您有不同大小的完全连接的图层或丢弃图层，则Xeon Phi比CPU要慢。我在一个孤立的矩阵矩阵乘法例子中复制了这个行为，并将它发送给了Intel。我从来没有从他们那里听到。...CPU的设计恰恰相反：如果涉及少量内存（例如乘以几个数字（3 * 6 * 9）），CPU可以快速计算，但是对于大量内存（如矩阵乘法（A * B * C）他们很慢。...GTX 1080的成本效率比GTX 1070低一些，但是自GTX 1080 Ti推出以来，价格大幅下滑，现在GTX 1080能够与GTX 1070竞争。...GTX 1060比普通的Titan X慢，但在GTX 980的性能和eBay价格上都是可比的。就爆炸而言，10系列设计得非常好。...我个人会与多个GTX 1070或GTX 1080研究。我宁愿运行几个比只运行一个更快的实验慢一点的实验。

2.7K11 0

深度学习GPU卡鄙视链，你在第几层？

Tensor Core是专门针对Deep Learning的应用而设计的专用ASIC单元，可以在一个时钟周期内实现两个4×4矩阵的乘法以及与另一个4×4矩阵的加法。...RTX2080ti鄙视GTX1080ti 本月NVIDIA发布了新一代图灵架构的GeForce RTX2080ti/RTX2080卡 ? ? ?...图灵架构的GPU为何强大，我们之前的文章里有分析过为什么说NVIDIA推出了史上最强的GPU？有了Tensor Core的加持，让RTX2080ti绝对有资本鄙视GTX1080ti。...有传言说RTX2080ti的中国区销售价格会是9999元人民币，那么相对近8000人民币的GTX1080ti，那真的算是加料不加价。...Tesla V100 PCIE版 63000元 Tesla P100 PCIE版 45000元 Tesla P40 45000元 Titan V 25500元 RTX2080ti 还未正式上市 GTX1080ti

23K3 2

【深度分析】深度学习选GPU，RTX 20系列值不值得？

当然，GTX 1080/1070（+ Ti）卡仍然是非常好的选择。...为了加深理解，做出明智的选择，最好要了解一下硬件的哪些部分使 GPU 能够快速执行两种最重要的张量操作：矩阵乘法和卷积。考虑矩阵乘法的一个简单而有效的方法是：它是受带宽约束的。...如果你想使用 LSTM 和其他需要做很多矩阵乘法的循环网络的话，内存带宽是 GPU 最重要的特性，同样，卷积受计算速度约束。...这也是矩阵乘法的一大优点，因为数字的大小只有 16-bit 而不是 32-bit，在内存带宽相同的矩阵中，数字的数量可以传输两倍。...在 AMD GPU 上的 16-bit 算法和在 NVIDIA 的具有 Tensor Cores 的卡上的矩阵乘法算法一样快。

2.3K1 0

深度学习中如何选择一款合适的GPU卡的一些经验和建议分享

CPU的设计恰恰相反：如果涉及少量内存（例如几个数字相乘（3 * 6 * 9）），CPU可以快速计算，但是对于大量内存（如矩阵乘法（A * B * C）则很慢。...例如，GTX 1080（320GB / s）比GTX 1070（256 GB / s）快25％（320/256）。...GTX 1070比普通的GTX Titan X（Maxwell）便宜一些。...GTX 1060比普通的Titan X慢，但与GTX 980具有可比的性价比。就综合性价比而言，10系列设计得非常好。...在这些领域中，按照每GB的内存数量计算，NVIDIA Titan Xp只比GTX 1080 Ti多1GB，但在这种情况下也具有一定的优势。

1.7K4 0

比较CPU和GPU中的矩阵计算

但是需要说明的是CUDA为N卡独有，所以这就是为什么A卡对于深度学习不友好的原因之一。 Tensor Cores是加速矩阵乘法过程的处理单元。...例如，使用 CPU 或 CUDA 将两个 4×4 矩阵相乘涉及 64 次乘法和 48 次加法，每个时钟周期一次操作，而Tensor Cores每个时钟周期可以执行多个操作。...Tensor Cores 内置在 CUDA 核心中，当满足某些条件时，就会触发这些核心的操作。测试方法 GPU的计算速度仅在某些典型场景下比CPU快。...在其他的一般情况下，GPU的计算速度可能比CPU慢!但是CUDA在机器学习和深度学习中被广泛使用，因为它在并行矩阵乘法和加法方面特别出色。...下面是一个总结的结果: NVIDIA的CUDA和Tensor Cores确实大大提高了矩阵乘法的性能。

1.4K1 0

阿里将 TVM 融入 TensorFlow，在 GPU 上实现全面提速

我们在生产环境中发现初版 Transformer 的推理速度大约比 LSTM 版本慢 1.5 倍到 2 倍。...什么是 batch 矩阵相乘通常，batch 矩阵相乘计算会在一批矩阵上执行矩阵-矩阵乘法。...矩阵相乘的形状比在其他工作负载下的常规矩阵相乘计算要小得多。...然后，我们通过 nvprof 描述了多形状 batch 矩阵相乘的 cuBLAS 性能。下面的表格中是使用 NVIDIA M40 GPU（CUDA 8.0）得到的一些指标。 ?...找到 number_thread 的最佳组合下面的结果是基于 NVIDIA M40 GPU（CUDA 8.0）。 ?

1.4K2 0

深度 | 英伟达深度学习Tensor Core全面解析

大多数计算本质上是并行的浮点计算，即大量的矩阵乘法，其最佳性能需要大量的内存带宽和大小，这些需求与HPC的需求非常一致，GPU正好可以提供高精度浮点计算、大量VRAM和并行计算能力，NVIDIA的CUDA...Tensor Core执行融合乘法加法，其中两个4*4 FP16矩阵相乘，然后将结果添加到4*4 FP16或FP32矩阵中，最终输出新的4*4 FP16或FP32矩阵。...在利用两个Tensor Core时，warp调度器直接发出矩阵乘法运算，并且在从寄存器接收输入矩阵之后，执行4*4*4矩阵乘法。待完成矩阵乘法后，Tensor Core再将得到的矩阵写回寄存器。 ?...测试选用PyTorch的CIFAR10训练实现中最快的两个，其中一个基于ResNet34，是为了在NVIDIA GeForce GTX 1080 Ti上运行，而第二个基于ResNet18，是为了在单个Tesla...CIFAR10的小型图像数据集运行良好，第一个训练实现是在单个GTX 1080 Ti上运行，需要35分37秒才能训练到94％的准确性，而在第二个训练实现中，Titan V只用了5分41秒就完成了94%的目标

3.3K1 1

【知识】详细介绍 CUDA Samples 示例工程

为了展示 GPU 的矩阵乘法性能，该示例还展示了如何使用新的 CUDA 4.0 接口 CUBLAS 实现高性能矩阵乘法。...为了展示 GPU 的矩阵乘法性能，该示例还展示了如何使用新的 CUDA 4.0 接口 CUBLAS 实现高性能矩阵乘法。...它是为了清晰地说明各种 CUDA 编程原则，而不是为了提供最通用的高性能矩阵乘法内核。CUBLAS 提供高性能的矩阵乘法。...globalToShmemAsyncCopy 这个示例实现了矩阵乘法，使用了异步复制数据从全局内存到共享内存（计算能力 8.0 或更高）。还展示了用于同步的到达等待屏障。...为了展示矩阵乘法的 GPU 性能，该示例还展示了如何使用新的 CUDA 4.0 接口 CUBLAS 实现高性能矩阵乘法。

1981 0

从「根」上找出模型瓶颈！康奈尔AI联合创始人发文，从第一原理出发剖析深度学习

并且这并非是GPU所独有的缺陷，TPU甚至比GPU更不通用。事实上，GPU在所有非矩阵乘法的操作上都很慢，乍一看可能影响很大，但实际上神经网络模型里基本都是矩阵乘法。...在一篇关于BERT模型的flop研究中可以发现，BERT中99.8%都是矩阵乘法（Tensor Contraction）操作，所以虽然非矩阵乘法的速度要慢15倍，但也无伤大雅。...但在这种情况下，归一化和点式运算实际上比矩阵乘法运算少了250倍的FLOPS和700倍的FLOPS。...至于为什么非矩阵乘法的理论性能和现实相差这么多，研究人员给出的答案是：内存带宽（memory bandwidth）。...运算符融合的效果就是更多的操作，时间成本相同，这也是为什么激活函数的计算成本几乎都是一样的，尽管gelu显然比relu多了很多操作。

4442 0

AI 芯片和传统芯片的区别

但是，他们本质上，都是矩阵或vector的乘法、加法，然后配合一些除法、指数等算法。一个成熟的AI算法，比如YOLO-V3，就是大量的卷积、残差网络、全连接等类型的计算，本质是乘法和加法。...对于YOLO-V3来说，如果确定了具体的输入图形尺寸，那么总的乘法加法计算次数是确定的。比如一万亿次。...（真实的情况比这个大得多的多）那么要快速执行一次YOLO-V3，就必须执行完一万亿次的加法乘法次数。...一共256X256=64K个乘加单元，每个单元一次可执行一个乘法和一个加法。那就是128K个操作。（乘法算一个，加法再算一个） ?...CUDA也越来越6，目前就成了GPU的专场。

1.5K5 0

做深度学习这么多年还不会挑GPU？这儿有份选购全攻略

另一方面，英伟达现在有一项政策，即只允许Tesla GPU在数据中心使用CUDA，而不允许GTX或RTX卡。...理解TPU的最简单方法是将其视为打包在一起的多个专用GPU——而且只为了一个目的：进行快速矩阵乘法。...为什么优先级是这样的呢？ GPU可以快速实现两个最重要的张量操作：矩阵乘法和卷积。考虑矩阵乘法A * B = C。将A，B的存储器复制到芯片上比计算A * B更昂贵。...这意味着，如果你想使用LSTM和其他经常进行大量小矩阵乘法的循环网络，则内存带宽是GPU最重要的特性。矩阵乘法越小，内存带宽就越重要。相反，卷积受计算速度的约束。...使用PyTorch 1.0.1和CUDA 10完成基准测试。从这些数据中，我们看到RTX 2060比RTX 2070，RTX 2080或RTX 2080 Ti更具性价比。为什么会这样呢？

1.6K5 0

为什么说NVIDIA推出了史上最强的GPU？

本次之前谣传——以后不再存在GTX系列了，改名成RTX。...CUDA, 计算统一)。...考虑到以前的TensorCore是FP16+FP32混合的（最后的FP32只做最后一步的加法），也就是说，我们遇到了Tensor Core 2.0版了。...这样可能很有用，也比普通的SP核心（计算核心。因为CUDA是计算一体的，SP同时复制图形绘制和计算）中的通用指令进行类型转换再运算要节省的多。...然后国内出来了一个BTM团队，弄个新的叫Tensority的工作量证明算法，这个算法是×矩阵运算×INT8的矩阵乘法。

1.2K4 0

『人脸识别系列教程』0·MTCNN讲解

缺点就是：慢。第一，生成图片金字塔慢；第二，每种尺度的图片都需要输入进模型，相当于执行了多次的模型推断流程。 1.2 MTCNN算法可以接受任意尺度的图片，为什么？...学习这些映射关系的过程就是在线性回归求解参数矩阵的问题。所以称之为边框回归。 为什么可以假设是线性映射？因为窗口P和真实窗口G的尺寸差异不大。...MTCNN的推断是CPU密集型运算，如果是图片超过1080，生成图像金字塔的过程可能是流程中最耗时的过程。因为金字塔结构，第一阶段需要地计算很多尺度的图片。...1张GTX 1080TI处理能力10T FLOPs，p-net的计算量相对于显卡的处理能力也是相差近千倍。计算量也不是问题。...使用PyTorch cuda张量在GPU上进行200×200矩阵乘法运算。使用PyTorch cuda张量在GPU上进行200×200矩阵乘法运算，每次都来回复制数据。

1.5K2 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭