专栏首页AI算法与图像处理神经网络批处理 | PyTorch系列(十九)

神经网络批处理 | PyTorch系列(十九)

文 |AI_study

原标题:Neural Network Batch Processing - Pass Image Batch To PyTorch CNN

  • 准备数据
  • 建立模型
    • 了解批处理如何传递到网络
  • 训练模型
  • 分析模型的结果

在上一节中,我们了解了前向传播以及如何将单个图像从训练集中传递到我们的网络。现在,让我们看看如何使用一批图像来完成此操作。我们将使用数据加载器来获取批处理,然后,在将批处理传递到网络之后,我们将解释输出。

传递一个 batch的图像到网络

首先,回顾一下上一节的代码设置。我们需要以下内容:

  1. imports。
  2. 训练集。
  3. 网络类定义。
  4. To disable gradient tracking。(可选的)
  5. 网络类实例。

现在,我们将使用我们的训练集来创建一个新的DataLoader实例,并设置我们的batch_size = 10,这样输出将更易于管理。

> data_loader = torch.utils.data.DataLoader(
     train_set, batch_size=10
)

我们将从数据加载器中提取一个批次,并从该批次中解压缩图像和标签张量。我们将使用复数形式命名变量,因为当我们在数据加载器迭代器上调用next时,我们知道数据加载器会返回一批10张图片。

> batch = next(iter(data_loader))
> images, labels = batch

这给了我们两个张量,一个图像张量和一个对应标签的张量。

在上一节中,当我们从训练集中提取单个图像时,我们不得不unsqueeze() 张量以添加另一个维度,该维度将有效地将单例图像转换为一个大小为1的batch。现在我们正在使用数据加载器,默认情况下我们正在处理批处理,因此不需要进一步的处理。

数据加载器返回一批图像,这些图像被打包到单个张量中,该张量具有反映以下轴的形状。

(batch size, input channels, height, width)

这意味着张量的形状是良好的形状,无需将其unsqueeze()。

> images.shape
torch.Size([10, 1, 28, 28])

> labels.shape
torch.Size([10])

让我们解释这两种形状。图像张量的第一个轴告诉我们,我们有一批十张图像。这十个图像具有一个高度和宽度为28的单一颜色通道。

标签张量的单轴形状为10,与我们批中的十张图像相对应。每个图像一个标签。

好的。通过将图像张量传递到网络来进行预测。

> preds = network(images)

> preds.shape
torch.Size([10, 10])

> preds
tensor(
    [
        [ 0.1072, -0.1255, -0.0782, -0.1073,  0.1048,  0.1142, -0.0804, -0.0087,  0.0082,  0.0180],
        [ 0.1070, -0.1233, -0.0798, -0.1060,  0.1065,  0.1163, -0.0689, -0.0142,  0.0085,  0.0134],
        [ 0.0985, -0.1287, -0.0979, -0.1001,  0.1092,  0.1129, -0.0605, -0.0248,  0.0290,  0.0066],
        [ 0.0989, -0.1295, -0.0944, -0.1054,  0.1071,  0.1146, -0.0596, -0.0249,  0.0273,  0.0059],
        [ 0.1004, -0.1273, -0.0843, -0.1127,  0.1072,  0.1183, -0.0670, -0.0162,  0.0129,  0.0101],
        [ 0.1036, -0.1245, -0.0842, -0.1047,  0.1097,  0.1176, -0.0682, -0.0126,  0.0128,  0.0147],
        [ 0.1093, -0.1292, -0.0961, -0.1006,  0.1106,  0.1096, -0.0633, -0.0163,  0.0215,  0.0046],
        [ 0.1026, -0.1204, -0.0799, -0.1060,  0.1077,  0.1207, -0.0741, -0.0124,  0.0098,  0.0202],
        [ 0.0991, -0.1275, -0.0911, -0.0980,  0.1109,  0.1134, -0.0625, -0.0391,  0.0318,  0.0104],
        [ 0.1007, -0.1212, -0.0918, -0.0962,  0.1168,  0.1105, -0.0719, -0.0265,  0.0207,  0.0157]
    ]
)

预测张量的形状为10 x 10,这给了我们两个长度为10的轴。这反映了以下事实:我们有十个图像,并且对于这十个图像中的每一个,我们都有十个预测类别。

(batch size, number of prediction classes)

第一维的元素是长度为十的数组。这些数组元素中的每一个包含对应图像每个类别的十个预测。

第二维的元素是数字。每个数字都是特定输出类别的分配值。输出类别由索引编码,因此每个索引代表一个特定的输出类别。该映射由该表给出。

Fashion MNIST 类

Argmax的使用:预测与标签

为了对照标签检查预测,我们使用argmax() 函数找出哪个索引包含最高的预测值。一旦知道哪个索引具有最高的预测值,就可以将索引与标签进行比较,以查看是否存在匹配项。

为此,我们在预测张量上调用argmax() 函数,并指定第二维。

第二个维度是我们的预测张量的最后一个维度。请记住,在我们所有关于张量的工作中,张量的最后一个维度始终包含数字,而其他所有维度都包含其他较小的张量。

在预测张量的情况下,我们有十组数字。argmax() 函数的作用是查看这十组中的每组,找到最大值,然后输出其索引。

对于每组十个数字:

  1. 查找最大值。
  2. 输出指标

对此的解释是,对于批次中的每个图像,我们正在找到具有最高值的预测类别(每列的最大值)。这是网络预测的类别。

> preds.argmax(dim=1)
tensor([5, 5, 5, 5, 5, 5, 4, 5, 5, 4])

> labels
tensor([9, 0, 0, 3, 0, 2, 7, 2, 5, 5])

argmax() 函数的结果是十个预测类别的张量。每个数字是出现最大值的索引。我们有十个数字,因为有十个图像。一旦有了这个具有最大值的索引张量,就可以将其与标签张量进行比较。

> preds.argmax(dim=1).eq(labels)
tensor([0, 0, 0, 0, 0, 0, 0, 0, 1, 0], dtype=torch.uint8)

> preds.argmax(dim=1).eq(labels).sum()
tensor(1)

为了实现比较,我们使用eq() 函数。eq() 函数计算argmax输出和标签张量之间的逐元素相等运算。

如果argmax输出中的预测类别与标签匹配,则为1,否则为0。

最后,如果在此结果上调用sum() 函数,则可以将输出缩减为该标量值张量内的单个正确预测数。

我们可以将最后一个调用包装到名为get_num_correct() 的函数中,该函数接受预测和标签,并使用item()方法返回Python数目的正确预测。

def get_num_correct(preds, labels):
    return preds.argmax(dim=1).eq(labels).sum().item()

调用此函数,我们可以看到我们得到了值1。

> get_num_correct(preds, labels)
1

总结

现在,我们应该对如何将一批输入传递到网络以及在处理卷积神经网络时预期的形状有一个很好的了解。

文章中内容都是经过仔细研究的,本人水平有限,翻译无法做到完美,但是真的是费了很大功夫,希望小伙伴能动动你性感的小手,分享朋友圈或点个“在看”,支持一下我 ^_^

英文原文链接是:

https://deeplizard.com/learn/video/p1xZ2yWU1eo

本文分享自微信公众号 - AI算法与图像处理(AI_study),作者:AI_study

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-06-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • CNN的Flatten操作 | Pytorch系列(七)

    欢迎回到这个关于神经网络编程的系列。在这篇文章中,我们将可视化一个单一灰度图像的张量flatten 操作,我们将展示如何flatten 特定的张量轴,这是CNN...

    AI算法与图像处理
  • 深度学习中关于张量的阶、轴和形状的解释 | Pytorch系列(二)

    今天是《高效入门Pytorch》的第二篇文章,上一篇我们讲解到《张量解释——深度学习的数据结构》。

    AI算法与图像处理
  • 张量运算之ArgMax和Reduction | PyTorch系列(九)

    欢迎回到这个关于神经网络编程的系列。在这篇文章中,我们将学习张量的Reduction 运算。

    AI算法与图像处理
  • Spring Security:安全访问控制

    “ 在前面的两篇文章中,说了如何使用Spring Boot搭建Security项目以及实现自定义登录认证,今天就拿一个具体的前后端分离项目来看一下安全访问的控制...

    每天学Java
  • linux查看端口占用pid

    1、lsof -i:端口号 用于查看某一端口的占用情况,比如查看8000端口使用情况,lsof -i:8000

    似水的流年
  • PHP中Trait知识点总结

    俗可耐
  • 关于美国地图中的两个海外州坐标平移与原始投影问题~

    通常我们在政治新闻或者财经日报中看到的数据可视化图表中,美国地图中的两个海外州——阿拉斯加和夏威夷都是被平移过的,主要因为这两个海外州偏离本土太远,使用原始位置...

    数据小磨坊
  • CSDN蒋涛答王峰十问:区块链时代,程序员离财富最近!

    用户2196435
  • CSDN蒋涛答王峰十问:区块链时代,程序员离财富最近!

    区块链大本营
  • 从某西安小程序开发合同纠纷窥探微信小程序技术服务中的套路

    “你们公司开发的微信小程序没有达到使用要求。”近日西安市新城区法院审结一起以微信小程序开发的合同纠纷案件。西安某生物科技有限公司与西安某软件公司签订了《微信小程...

    西安弈聪软件公司

扫码关注云+社区

领取腾讯云代金券