通常,学习周期包含:
optim.zero_grad()
loss(m, op).backward()
optim.step()
但是,当数据不适合显卡时,应该是什么周期呢?
第一个选项:
for ip, op in DataLoader(TensorDataset(inputs, outputs),
batch_size=int(1e4), pin_memory=True):
m = model(ip.to(dev))
op = op.to(dev)
optim.zero_grad()
loss(m, op)