专栏首页决策智能与机器学习论文精读| 附源代码及数据集 | LeCun的CNN经典之作 | Gradient-Based Learning…

论文精读| 附源代码及数据集 | LeCun的CNN经典之作 | Gradient-Based Learning…

论文介绍

作者:Yann LeCun, Leon Bottou, Yoshua Bengio, and Partrick Haffner

全文和源代码下载,公众号回复:20180423

作者简介

Yann LeCun,生于1960年,是一位机器学习、计算机视觉、机器人、计算神经科学领域的计算机科学家。他被大家所熟知的是在非光学字符识别和利用卷积神经网络(CNN)实现计算视觉方面的工作,是CNN之父。他也是DjVu图像压缩技术的主要创造者之一。他与Léon Bottou.共同开发了Lush编程语言。

(from Wikipedia)

特别说明

这篇文章非常具有代表意义,是LeCun在1998年发布的大名鼎鼎的LeNet,在这里LeCun发了一篇46页的论文,第一次喊出了卷积网(Convolutional network)的口号,并且把结果同各种方法做了一个比较,基本唯一能抗衡的就是V-SVM poly9,结果祭出大杀器Boost,Boosted LeNet-4,以0.1%的优势干掉了SVM。

摘要

利用反向传播算法训练的多层神经网络成为了基于梯度学习技术的应用非常成功的最佳案例。给出一个比较合适的网络结构,基于梯度的学习算法可以用来形成一个复杂的决策曲面,可以基于很少的预处理实现对手写字体识别这样的高维模式进行分类。这篇文章综述了识别手写字体的各种不同方法,并在一个标准的数据集上进行了对比。卷积神经网络经过特定设计后,在处理各种2D图形时跑赢了其他方法。

真实的文档识别同是由多种模块组成的,包括字段抽取、分割、识别和语言建模。以各种学习范式叫做图像转换网络(GTN),可以让这样的多模块系统通过基于梯度的方法进行全局训练,从而实现综合性能指标的最优化。

以上描述的两个在线手写体识别系统,通过试验证明了全局训练的好处,以及GTN的灵活性。

文中介绍了一种用于识别银行支票的GTN方法。它使用了CNN字体识别联合全局训练技术,实现商业和个人支票的记录精度。这套方法已经实现了商业部署,每天处理几百万张支票。

文章结构

本次精读重点关心的是LeNet部分的内容,涉及1-3章,其余部分不做介绍,感兴趣的小伙伴可以自行阅读。

精华内容

知识点1:自动学习可以实现比手工设计启发方式更好的模式识别系统。

这是作者在整篇文章中方法的核心理念,这种方式也是随着机器学习方法和计算机技术的发展而变得可行的。

知识点2:从数据中学习的路径

数值方法或者叫基于梯度的学习方法是神经网络社区在90年代最为流行、最成功的方法,正是这个方法使得从数据中进行学习成为可能。即使今日,主流学习方法仍然是基于梯度学习的演化方法。更加高效的学习方法仍在探索之中。

该方法的核心是将训练误差和测试误差的最小化。

知识点3:梯度学习

计算机科学很多问题的根源是如何对一个函数中参数集合最优化的问题。梯度学习方式使得对连续平滑函数的最优化变得更加容易。

知识点4:梯度反向传播

该方法在1950年就已经提出来,但真正广为使用源于三个重要事件的发生。

1.损失函数的局部极值问题在实践中并没有造成真正的困扰

2.一个简单有效计算非线性系统中多层结构中梯度的方法的流行,该方法由Rumelhart, Hinton和Williams等人提出

3.反向传播过程在带有sigmoidal单元的多层神经网络的复杂学习任务中的有效性得到证明

知识点5:全局训练方法

不同于当时传统的多模块系统,提出了基于偏微分方程的全局训练方法。

知识点6:卷积网络

卷积网络结构的三个核心思想保证了数据在变换、缩放和扭曲情况下的一致性。基于此思想,提出了LeNet-5的网络结构,包括卷积层、池化层、全连接层、损失函数等内容。在此不对网络进行详细阐述,感兴趣可以参见文章P7-9页。

1.局部感知场

2.权重共享(或者叫权重复制)

3.空间或时间上的二次采样

知识点7:各种方法之间的对比

最终结果之中对比了当时各种主流分类器的精度。特定设计的Boosted LeNet-4以0.7的错误率优于V-SVM poly 9方法的0.8错误率。各个方法的详细说明参见文章P10-14页。

知识点8:对于噪声的抗干扰能力

特别讨论了在实际场景中,CNN网络对于图像变形、缩放、扭曲等情况下的高度抗干扰能力,大大由于传统方法。使得图像识别方法的实际应用变得更加可行。

本文分享自微信公众号 - 决策智能与机器学习(AIfreak),作者:九三山人

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-04-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 论文精读|3rd|ICLR 2018最佳论文|全文下载|meta-learning in nonstationary

    作者:Maruan Al-Shedivat, Trapit Bansal, Yura Burda等

    用户7623498
  • 如何在数据竞赛中脱颖而出-见解、技术及策略

    今天,我们分享一些关于数据竞赛的经验与技术,以及一些可以确保你取胜的技术策略。本文选取的数据来自Vidhya上的“贷款预测”竞赛。

    用户7623498
  • 论文精读|6th | CNN网络的解耦设计 | CVPR 2018 | 一种新的高性能学习架构 | 附全文下载

    这是一篇CVPR 2018的Spotlight论文,提出了一种可以大幅提高性能、收敛能力、鲁棒性的解耦算子,构成解耦网络。该方法受到了CNN类网...

    用户7623498
  • WebLogic coherence UniversalExtractor 反序列化 (CVE-2020-14645) 漏洞分析

    Oracle七月发布的安全更新中,包含了一个Weblogic的反序列化RCE漏洞,编号CVE-2020-14645,CVS评分9.8。

    Seebug漏洞平台
  • 大数据Hadoop与Spark学习经验谈

    昨晚听了下Hulu大数据基础架构组负责人–董西成的关于大数据学习方法的直播,挺有收获的,下面截取一些PPT的关键内容,希望对正在学习大数据的人有帮助。

    chaplinthink
  • 高级java开发必须掌握的Spring接口——SmartLifecycle

    有些场景我们需要在Spring 所有的bean 完成初始化后紧接着执行一些任务或者启动需要的异步服务。常见有几种解决方案

    码农小胖哥
  • 【SLAM】开源 |Active Neural SLAM:模块化和层次化的方法学习探索3D环境,CVPR 2019 获奖作品

    在本文中提出了一种模块化和层次化的方法来学习探索3D环境的策略,称为Active Neural SLAM。本文方法通过learned SLAM模块, 和glob...

    CNNer
  • 我的2020 九月iOS面试秘籍,为你的跳槽保驾护航

    开门见山,这篇文章,适合「中高级iOS开发」,如果你现在待业,或者想跳槽并且还在求职的话,可以看看本文,找一找灵感,希望对你们有帮助。

    iOS_林夕
  • 【算法】机器学习和数据科学最常用到的TOP10算法

    数据科学的实践,需要使用算法和数据科学方法,来帮助数据专业人员从数据中提取洞察力和价值。Kaggle最近的一项调查显示,数据专家在2017年比其他数据科学方法更...

    陆勤_数据人网
  • 蝉知 CMS5.6 反射型 XSS 审计复现过程分享

    最近在深入学习反射 XSS 时遇到蝉知 CMS5.6 反射型 XSS 这个案列,乍一看网上的漏洞介绍少之又少,也没有详细的审计复现流程。虽然是 17 年的漏洞了...

    信安之路

扫码关注云+社区

领取腾讯云代金券