我可以访问特斯拉K20c,我正在CIFAR10数据集上运行ResNet50 ...然后我得到的错误是:
THCudaCheck FAIL file=/opt/conda/conda-bld/pytorch_1524584710464/work/aten/src/THC/generated/../generic/THCTensorMathPointwise.cu line=265 error=59 : device-side assert triggered
Traceback (most recent call last):
File "main.py", line 109, in <module>
train(loader_train, model, criterion, optimizer)
File "main.py", line 54, in train
optimizer.step()
File "/usr/local/anaconda35/lib/python3.6/site-packages/torch/optim/sgd.py", line 93, in step
d_p.add_(weight_decay, p.data)
RuntimeError: cuda runtime error (59) : device-side assert triggered at /opt/conda/conda-bld/pytorch_1524584710464/work/aten/src/THC/generated/../generic/THCTensorMathPointwise.cu:265
如何解决此错误?
发布于 2018-08-06 14:28:35
通常,当遇到cuda runtine error
时,建议使用CUDA_LAUNCH_BLOCKING=1
标志再次运行程序,以获得准确的堆栈跟踪。
在您的特定情况下,数据的目标对于指定数量的类来说太高(或太低)。
发布于 2019-03-21 09:08:27
这个问题我已经遇到过好几次了。我发现这是一个索引问题。
例如,如果您的地面实况标签从1:target = [1,2,3,4,5]
开始,那么您应该为每个标签减去1
,将其更改为:[0,1,2,3,4]
。
这每次都能解决我的问题。
发布于 2020-09-18 16:27:41
我在运行BertModel.from_pretrained('bert-base-uncased').时遇到此错误当错误信息变为“IndexError: index out of range in self”时,我找到了解决方案。这让我找到了this帖子。解决方案是将句子截短到512个长度。
https://stackoverflow.com/questions/51691563
复制相似问题