文章/答案/技术大牛

发布

社区首页 >问答首页 >通过代码修改解决CUDA错误:内存不足

问通过代码修改解决CUDA错误:内存不足
EN

Stack Overflow用户

提问于 2022-06-07 17:55:11

回答 1查看 866关注 0票数 0

在使用GPU的服务器上运行这段代码时，我一直收到以下错误：

RuntimeError: CUDA out of memory. Tried to allocate 10.99 GiB (GPU 0; 10.76 GiB                                                                                         total capacity; 707.86 MiB already allocated; 2.61 GiB free; 726.00 MiB reserved                                                                                         in total by PyTorch)

我加了一个垃圾收集器。我试着使批处理的大小非常小(从10000到10)，现在错误已经更改为：

(main.py:2595652): Gdk-CRITICAL **: 11:16:04.013: gdk_cursor_new_for_display: assertion 'GDK_IS_DISPLAY (display)' failed
2022-06-07 11:16:05.909522: I tensorflow/stream_executor/platform/default/dso_loader.cc:53] Successfully opened dynamic library libcudart.so.11.0
Traceback (most recent call last):
  File "main.py", line 194, in <module>
    **psm = psm.cuda()**
  File "/usr/lib/python3/dist-packages/torch/nn/modules/module.py", line 637, in cuda
    return self._apply(lambda t: t.cuda(device))
  File "/usr/lib/python3/dist-packages/torch/nn/modules/module.py", line 530, in _apply
    module._apply(fn)
  File "/usr/lib/python3/dist-packages/torch/nn/modules/module.py", line 530, in _apply
    module._apply(fn)
  File "/usr/lib/python3/dist-packages/torch/nn/modules/module.py", line 552, in _apply
    param_applied = fn(param)
  File "/usr/lib/python3/dist-packages/torch/nn/modules/module.py", line 637, in <lambda>
    return self._apply(lambda t: t.cuda(device))
**RuntimeError: CUDA error: out of memory
CUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrect.**
For debugging consider passing CUDA_LAUNCH_BLOCKING=1.

这是经前综合征的一部分。我复制了错误行显示的psm = psm.cuda()

class PSM(nn.Module):
    def __init__(self, n_classes, k, fr, num_feat_map=64, p=0.3, shar_channels=3):
        super(PSM, self).__init__()
        self.shar_channels = shar_channels
        self.num_feat_map = num_feat_map
        self.encoder = Encoder(k, fr, num_feat_map, p, shar_channels)
        self.decoder = Decoder(n_classes, p)

    def __call__(self, x):
        return self.forward(x)

    def forward(self, x):
        encodes = []
        outputs = []
        for device in x:
            encode = self.encoder(device)
            outputs.append(self.decoder(encode.cuda()))
            encodes.append(encode)
        # Add shared channel
        shared_encode = torch.mean(torch.stack(encodes), 2).permute(1,0,2).cuda()
        outputs.append(self.decoder(shared_encode))
        return torch.mean(torch.stack(outputs), 0)

python

pytorch

gpu

out-of-memory

Stack Overflow用户

发布于 2022-06-07 18:52:13

这对我起了作用：

我在终端上运行了nvidia -smi，发现GPU不那么繁忙。
然后，将torch.cuda.set_device(1)添加到我的代码中对我有效，因为设备1不那么繁忙。我还用了一个缩小的批次大小。

票数 -2

查看全部 1 条回答

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/72535634

复制

相似问题

问通过代码修改解决CUDA错误:内存不足
EN

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问通过代码修改解决CUDA错误:内存不足EN

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问通过代码修改解决CUDA错误:内存不足
EN