我想知道为什么将内存固定在PyTorch中会使事情变得更慢。i in a:# CPU times: user 314 ms, sys: 12 µs, total: 314 ms因此,没有固定内存的使用更少的固定内存不应该使数据传输异步,因此速度更快吗?如果不是这样的话,我们为什么要做引脚记忆呢?
PS。我考虑过预先固定整个TensorDataset的可能性(而不是每次固定批)。但这
在4 A6000 GPU上运行分布式培训时,我得到以下错误:
[E ProcessGroupNCCL.cpp:630] [Rank 3] Watchdog caught collective operationDue to the asynchronous nature of CUDA kernels, subsequent GPU operations might run on corrupted/incompleteDue to the asynchronous nature of CUDA kernels, subsequent GP