与Pytorch中的BatchNorm相比，GroupNorm的速度要慢得多，而且占用的GPU内存也更高

文章/答案/技术大牛

发布

1回答

我在pytorch中使用GroupNorm而不是BatchNorm，并保持所有其他的(网络架构)不变。结果表明，在Imagenet dataset中，使用resnet50架构，GroupNorm比BatchNorm慢40%，比BatchNorm多消耗33%的内存。我真的很困惑，因为GroupNorm不应该比BatchNorm需要更多的计算。下面列

浏览 91提问于2019-09-19得票数 5

2回答

钉扎内存在PyTorch中实际上要慢一些吗？

、

我想知道为什么将内存固定在PyTorch中会使事情变得更慢。i in a:# CPU times: user 314 ms, sys: 12 µs, total: 314 ms因此，没有固定内存的使用更少的固定内存不应该使数据传输异步，因此速度更快吗？如果不是这样的话，我们为什么要做引脚记忆呢？ PS。我考虑过预先固定整个TensorDataset的可能性(而不是每次固定批)。但这

浏览 2提问于2019-11-07得票数 15

1回答

具有256个隐藏嵌入的BERT

、、、

我正在尝试使用BERT从不同的数据集中获取词嵌入，用于我的NLP任务。我使用了具有768个单词嵌入的“bert_base_uncased”，但它内存不足。256个单词嵌入的版本已经发布了吗？或者有没有办法压缩这768个隐藏的嵌入文件？谢谢!

浏览 9提问于2020-03-17得票数 0

2回答

为什么通用GPU的内存如此有限？

、

我们经常发现，神经网络的训练过程可能受到GPU内存大小的高度限制，比如在目标检测模型中，训练批次的大小可能被限制在1或2以内，这使得那些在这样的任务中工作很长时间的人不得不面对这样有限的内存/批处理大小的场景而提出了一些技巧那么，为什么GPU内存仅限于普通P 100/V 100上的16 GPU内存</

浏览 0提问于2018-12-14得票数 2

1回答

TensorFlow服务内存使用

、、

我很难在文档中找到关于如何在TensorFlow服务中保存和加载模型的特定信息，以及在CPU与GPU上运行时可能存在的差异。变量/变量.数据目前，我正在CPU上运行推理，同时加载许多模型，占用RAM的速度比预期的快得多。所保存的模型在磁盘上相对较小，但是当TF服务将

浏览 2提问于2019-05-31得票数 5

回答已采纳

2回答

英特尔OpenCL北网发行

、、、、

在GPU实现上使用英特尔的OpenCL --但我从未管理过它的运行，因为它需要定制的构建内核，而且它不是想要处理的东西(我是不是错过了什么) i5-6600与Intel HD Graphics 530 -工作正常，但比在Windows下使用相同的GPU和Int

浏览 8提问于2017-01-19得票数 4

回答已采纳

1回答

我有一个关于NVIDIA GPU性能的问题。我有一个实现，我在两个数组之间进行插值。使用倾斜到线性内存的纹理比使用CUDA数组更快。目前，我只在一个GPU上试用了它。每个GPU上都是这样吗?我在笔记本电脑上使用GPU。桌面GPU是否更快？因为目前我只获得了2-3的加速。我可能看起来像一个愚蠢的问题，但我会感谢一个在许多GPU上处理纹理的人的回答。我想知道使用CUDA-Arrays

浏览 1提问于2012-11-21得票数 3

回答已采纳

1回答

升级后性能下降

今天我用Ubuntu10.10升级了我的上网本到11.04。这是我的规格：总是使用Gnome (所以在10.10 Ubuntu Clasic中) 这并不是那么令人惊讶，但与11.04相比，10.10的速度相当快。首先，我的登录(在GDM中

浏览 0提问于2011-04-14得票数 1

回答已采纳

2回答

什么是最好的方式同步时间的实时体育比赛与你的应用程序？

它显示了比赛进行时的实时得分。在橄榄球联赛中，比赛时钟可以在比赛中的任何一点被暂停(类似于篮球)。当匹配发生时，我每5秒从一个实时提要中检索数据。此提要包含最新的信息，如比赛时间、分数等. 在我的应用程序中，我启动一个内部匹配时钟在现场比赛。这样做<

浏览 0提问于2016-03-17得票数 1

1回答

RuntimeError:库达内存不足。使用过多GPU内存的节引理问题

、、、

你好，我有11 of的GPU内存，我遇到了CUDA内存问题与预先训练的狐猴。尝试分配978.00 MiB (GPU 0; 11.00 GiB总容量；6.40 GiB已分配；439.75 MiB空闲；6.53 GiB由PyTorch总共预留)。基于错误信息“尝试分配978.00 MiB”和此数据，SNLP每步使用1 1GiB的GPU内存？，在每次运行lemma_之后，有没有办法清除每个文本的<

浏览 2提问于2020-08-23得票数 2

1回答

为什么增加氪的p(并行化)参数不是更流行呢？

、、、

首先，我对p参数在scrypt中的理解是，它可以将要完成的工作量乘以，但是以这样一种方式，附加的工作负载是相互独立的，并且可以并行运行。随着对p的解释被清除，为什么推荐的值仍然是1？从攻击者试图破解密码的角度来看，算法是否可并行并不重要。毕竟，即使整个算法是连续的，攻击者也可以并行破解几个不同的密码。我知道scrypt是内存硬的，所以很难利用GPU</e

浏览 0提问于2020-07-11得票数 4

1回答

LOCAL_CFLAGS -mno-thumb是什么意思？

我知道LOCAL_CFLAGS是一组可选的编译器标志，在构建C源文件时将传递这些标志。我的问题是这个标志是什么意思，"-mno-thumb“，或者我在哪里可以找到可用的LOCAL_CFLAGS及其解释的列表。提前谢谢你！！

浏览 1提问于2013-05-15得票数 2

4回答

Pypy写文件速度慢

、、

我最近一直在尝试使用PyPy，对于我当前的项目，它的速度快了25倍，而且运行得很好。然而，不幸的是，编写文件的速度非常慢。编写文件大约要慢60倍。with file(path, 'w') as f:

浏览 8提问于2012-09-25得票数 4

1回答

实际缓冲区使用指南行

、、

现在我开始着手开发典型的应用程序，即大量使用缓冲区。我很惊讶我找不到关于这个话题的好的明确的指南。1)与托管内存相比，我更喜欢在非托管堆内存中使用缓冲区？我知道.net上的对象分配比非托管堆上的对象分配更快，而且由于GC开销的原因，.net上的对象销毁要昂贵得多，所以我认为使用非托管的

浏览 1提问于2014-01-08得票数 0

回答已采纳

3回答

用秒而不是小时旋转数百个JPEG

、、、、

我们有数以百计的图像，我们的计算机一次得到，我们需要旋转和调整它们的速度尽可能快。旋转是90度、180度或270度。import cvtimg = cv.CreateImage((img.height,img.width(img,timg)cv.SaveImage("rotate

浏览 8提问于2012-07-09得票数 3

回答已采纳

3回答

错误:一些NCCL操作失败或超时

、、、

在4 A6000 GPU上运行分布式培训时，我得到以下错误： [E ProcessGroupNCCL.cpp:630] [Rank 3] Watchdog caught collective operationDue to the asynchronous nature of CUDA kernels, subsequent GPU operations might run on corrupted/incompleteDue to the asynchronous nature of CUDA kernels, subsequent GP

浏览 300提问于2021-10-24得票数 3

2回答

哪个是最快的:着色器与动画/动画/像素操作？

、、

我使用戈多引擎和后，我看到了什么可以做的着色器(例如。http://glslsandbox.com/e#53172.0)我意识到我必须学会它，不管理解它的更难的部分有多难。到目前为止，我已经使用了动画精灵，或者只是在动画编辑器中制作动画。我想知道我是否通过使用着色器获得了性能，例如，当我想要制作一个被风拖曳的旗帜，或者我想要做一些类似于我链接的例子。我会认为着色器是fastest...but，不是更快，当有一个完成的动画，你只需要让游戏引

浏览 0提问于2019-03-08得票数 0

回答已采纳

2回答

计算Python中两个向量的所有点之间的距离: linalg、ase.geometry、并行化、GPU等等。

、、、、

我需要计算这两组所有点之间的距离，然后给出一个(50万，500000)数组。因此，pos1[0]需要与pos2[0]，pos2[1]，. pos2[499999]进行比较，pos1[1]也是如此。这是一个非常慢的过程，并且希望在一个有8个节点的集群上不到一个小时。., 0.0], [0.0, 0.0, 100.]])[1] dist[i+1:, i] = dist[i, i+1:].T 所以我的问题是如N^2这样的等价

浏览 9提问于2022-07-11得票数 0

1回答

如何通过USB连接NVIDIA CUDA PCI-E显卡？

、、、、

我想运行一些CUDA计算，但我只有没有NVIDIA的简单笔记本。是否有USB适配器可以将NVIDIA显卡连接到我的笔记本电脑？如果有这样一个设备，我连接我的NVIDIA卡，将它插入我的计算机，运行计算，然后断开与笔记本电脑的连接，直到计算完成，那就太好了。

浏览 1提问于2013-01-23得票数 0

回答已采纳

3回答

我可以使用AS3 Stage3D AGAL来实现类似CUDA的处理吗？

、、、、

我有一个程序，可以在320x240的流运行时检测到一个球，但如果我流的分辨率更高，它就会变得太慢。我假设如果我可以使用GPU来计算每个像素(与其相邻的帧和相邻的像素)，它会更快。谁知道我能不能用AGAL从GPU取回数据？在排序中，我有下面的循环，什么通过帧的每个像素，我想在GPU上计算最多，以实现更好的性能。

浏览 2提问于2013-01-01得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云