专栏首页机器之心学界 | 超少量数据训练神经网络:IEEE论文提出径向变换实现图像增强

学界 | 超少量数据训练神经网络:IEEE论文提出径向变换实现图像增强

选自arXiv

机器之心编译

参与:李亚洲、黄小天

近日,一篇题为《Training Neural Networks with Very Little Data-A Draft》IEEE 论文提出了一种使用少量数据训练神经网络的新方法,即通过极坐标空间中的径向变换(radial transform) 实现图像增强。它并未改变数据的信息内容,而是改进了数据的多样性,并最终提升了神经网络的泛化表现。

论文地址:https://arxiv.org/pdf/1708.04347.pdf

摘要:深度神经网络是由许多节点层组成的复杂架构,结果导致大量需要在训练中评估的参数,包括权重、偏差等。相比于简单的架构,更大、更复杂的神经网络需要更多的训练数据满足适当的收敛。然而,可用于训练网络的数据要么有限、要么不均衡。我们提出在极坐标空间中的径向变换(radial transform) 进行图像增强,从而帮助数据较少的神经网络进行训练。每像素的坐标变换提供了原始图像与增强后的数据在极坐标系统中的表征,且又能增加表征较弱的图像类别的多样性。使用我们提出的方法,在 MNIST 上,以及使用 AlxNet、GoogLeNet 神经网络模型的一系列多模型医疗图像上的试验表现出了极高的分类准确率。

图 1:径向变换采样。a)使用径向变换从笛卡尔坐标系统(左)中把样本映射到极坐标系统(右)。b)极坐标系统中的径向变换。c)使用径向变换筛选 256 × 256 图像(2D 平面)中的离散样本。任意选定的极点在像素(170,50)处。d)把 c)中筛选的样本从极坐标系统映射到笛卡尔坐标系统。红色样本表明了样本从 c)到 d)的映射方向。

图 2 :来自 MNIST 数据集的样本和使用极坐标系中的径向变换 RT(·)的相应表征。

图 3:多模态医疗数据集的样本,以及在极坐标系统中使用径向变换的相应表征。

表 4:使用 MNIST 和医疗多模态数据集中的原始和径向变换图像训练的 AlexNet 和 GoogLeNet 模型的收敛行为。术语「RT」是指径向变换图像,术语「Original」是指用很少的原始图像训练的模型。x 轴表示训练迭代,左 y 轴表示训练时的模型损失,右 y 轴表示使用验证数据集训练时的模型准确度。

表 1:通过原始和径向变换的多模态医疗图像训练的 AlexNet 和 GoogLeNet 的准确度(「Acc.」in %)和置信度(「Conf.」in %)值。「Abd」是指腹部 MRI,「Std」是标准偏差。黑体部分是最佳结果。

表 2 :通过原始和径向变换的 MNIST 图像训练的 AlexNet 和 GoogLeNet 的准确度(「Acc.」in %)和置信度(「Conf.」in %)值。「Std」是标准偏差。黑体部分是最佳结果。

结论

成功地训练深度神经网络需要大量均衡的数据。在实践中,大部分数据集都是不均衡的,或者特定类别的数据集可用的数据有限。在此论文中,我们提出了极坐标系统中的径向变换来增加数据集中的样本量,从而帮助对神经网络的训练。提出的这种数据增强方法并未改变数据的信息内容,而是改进了数据的多样性。我们的结果显示这种方法增加了神经网络的泛化表现,也就是机器学习模型预测未知数据的输出值的准确率。在非常少的数据上训练当前最佳的 AlexNet 和 GooLeNet 神经网络模型,表明该方法在整个学习流程中训练损失和验证准确率都有极大的波动。

本文为机器之心编译,转载请联系本公众号获得授权。

本文分享自微信公众号 - 机器之心(almosthuman2014)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-08-31

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 自动化数据增强:实践、理论和新方向

    在图像分类和文本分类等应用中,当今使用的几乎所有表现最好的机器学习模型几乎都会用到数据增强技术。启发式的数据增强方案往往需要依靠具有丰富领域知识的人类专家进行人...

    机器之心
  • 机器学习的七大谣传,这都是根深蒂固的执念吧

    在 NeurIPS 2018 的论文 Computing Higher Order Derivatives of Matrix and Tensor Expre...

    机器之心
  • 检测、重识别为啥很难一步到位?华中科技大、微软深入挖掘,新方法实现新SOTA

    近年来,目标检测和重识别均取得长足进步,而它们正是多目标跟踪的核心组件。但是,没有太多研究人员试图用一个框架完成这两项任务,进而提升推断速度。然而最初朝着这个方...

    机器之心
  • 干货 | 自从学了这个方法,深度学习再也不愁没钱买数据集了

    深度学习大牛吴恩达曾经说过:做AI研究就像造宇宙飞船,除了充足的燃料之外,强劲的引擎也是必不可少的。假如燃料不足,则飞船就无法进入预定轨道。而引擎不够强劲,飞船...

    AI科技评论
  • 如何利用数据科学提升医疗保健质量

    大数据文摘
  • 李鹏辉:在海量数据中找到相关关系,就能产生价值

    研究生院专硕办副主任李鹏辉老师与数据院渊源颇深。从校领导决定建院之初,校长及五位副校长齐聚工字厅开会探讨,到如今教学规模达一千多名学生,李老师是一步一步看着,支...

    数据派THU
  • 海云数据创始人兼CEO冯一村:AI产业化的春天将首先爆发于能够理解用户诉求的细分领域

    数据猿导读 随着各行业数据不断积累,人们已经意识到在海量数据中有超过80%的数据静待处理,超过90%的数据价值并未被挖掘。海云数据创始人兼CEO冯一村告诉数据猿...

    数据猿
  • 【钱塘号】2016工业大数据应用现状分析

    工业大数据应用现状分析 工业大数据现状 工业大数据也是一个全新的概念,从字面上理解,工业大数据是指在工业领域信息化应用中所产生的大数据。随着信息化与工业化的深度...

    钱塘数据
  • 【盘点】物联网大数据七大应用和五大战场

    导读:物联网大数据七大应用:1.加速产品创新、2.产品故障诊断与预测、3.工业物联网生产线的大数据应用4.工业供应链的分析与优化、5.产品销售预测与需求管理、...

    钱塘数据
  • 0462-Hadoop和大数据要完蛋了吗?

    几个星期以前,Hadoop时代的两大巨头Cloudera和Hortonworks宣布他们将合并。该公告声称这将是“merger of equals(平等的合并)...

    Fayson

扫码关注云+社区

领取腾讯云代金券