pytorch-Train-Val-Test划分（上）

用户6719124

发布于 2019-11-17 21:54:06

3.6K0

发布于 2019-11-17 21:54:06

文章被收录于专栏：python pytorch AI机器学习实践python pytorch AI机器学习实践

本节介绍的是Train/Val/Test部分的划分，合理的划分会有效地减少under-fitting和over-fitting现象。

我们以数字识别为例，正常一个数据集我们要划分出来训练部分和测设部分，如下图所示

如上图，左侧橘色部分作为训练部分，神经网络在该区域内不停地学习，将特征转入到函数中，学习好后得到一个函数模型。随后将上图右面白色区域的测试部分导入到该模型中，进行accuracy和loss的验证。

通过不断地测试可以查看模型是否调整到一个最佳的参数，及结果是否发生over-fitting现象。

# 训练-测试代码写法
train_loader = torch.utils.data.Dataloader(
# 一般使用DataLoader函数来让机器学习或测试
    datasets.MNIST('../data', train=True, download=True,
# 使用 train=True 或 train=False来进行数据集的划分
#  train=True时为训练集，相反不是训练集（即为测试集）
                   transform=transform.Compose([
                       transforms.ToTensor(),
                       transforms.Normlaize((0.1307,),(0.3081,))
                   ])),
    batch_size=batch_size, shuffle=True)

test_loader = torch.utils.data.Dataloader(
    datasets.MNIST('../data', train=False, download=True,
                   transform=transform.Compose([
                       transforms.ToTensor(),
                       transforms.Normlaize((0.1307,),(0.3081,))
                   ])),
    batch_size=batch_size, shuffle=True)

这里注意，正常情况下数据集是要有validation（验证集）的，若没有设置，即将test和val集合并为一个。

前面讲解了如何对数据集进行划分，那么如何进行循环学习验证测试呢？

代码如下

for epoch in range(epochs):
for batch_idx, (data, target) in enumerate(train_loader):

# 这里的data和target一般作为backward用
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

# 每次循环都查看一次是否发生over-fitting现象
# 如果发生了over-fitting现象，我们便将最后一次
# 模型的状态函数作为最终的模型版本

    test_loss = 0
    correct = 0
for data, target in test_loader:
data = data.view(-1, 28*28)
        pred = logits.data.max(1)[1]
        correct += pred.eq(target.data).sum()

以一个实际例子的train error和test error来举例作图