雷锋网注:卷积神经网络(Convolutional Neural Network)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。
Yann LeCun出生在法国,曾在多伦多大学跟随深度学习鼻祖Geoffrey Hinton进行博士后研究。早在20世纪80年代末,Yann LeCun就作为贝尔实验室的研究员提出了卷积网络技术,并展示如何使用它来大幅度提高手写识别能力。上世纪末本世纪初,当神经网络失宠时Yann LeCun是少数几名一直坚持的科学家之一。他于2003年成为纽约大学教授,并从此引领了深度学习的发展,目前任职于Facebook FAIR实验室。本文是Yann LeCun对于卷积神经网络(Convolutional Neural Network)的演讲介绍PPT。
Yann LeCun (信息学与计算机科学)(2015-2016)
首个卷积神经网络模型(多伦多大学)(LeCun 88,89)
共320个运用反向传播算法训练的实例
带有步幅的卷积(子样本) 紧密相连的池化过程
在贝尔实验室建立的首个“真实”卷积神经网络模型(LeCun et al 89)
运用反向传播算法进行训练 USPS 编码数字:7300次训练,2000次测试 带有步幅的卷积 紧密相连的池化过程
卷积神经网络(vintage 1990)
滤波-双曲正切——池化——滤波-双曲正切——池化
多重卷积网络
卷积神经网络的卷积运算过程大致如下:
输入图像通过三个可训练的滤波器组进行非线性卷积,卷积后在每一层产生特征映射图,然后特征映射图中每组的四个像素在进行求和、加权值、加偏置,在此过程中这些像素在池化层被池化,最终得到输出值。
卷积神经网络的整体结构:
归一化——滤波器组——非线性计算——池化
减法运算:平均去除,高通滤波器进行滤波处理 除法运算:局部对比规范化,方差归一化
精馏,成分明智收缩,双曲正切等
最大化,Lp范数,对数概率
LeNet5
卷积神经网络简化模型 MNIST (LeCun 1998)
阶段1:滤波器组——挤压——最大池化
阶段2:滤波器组——挤压——最大池化
阶段3:标准2层 MLP
多特征识别(Matan et al 1992)
每一层都是一个卷积层
单一特征识别器 ——SDNN
滑动窗口卷积神经网络+加权有限状态机
卷积神经网络的应用范围
文本分类 音乐体裁分类 用于语音识别的声学模型 时间序列预测
物体检测,定位,识别
视频识别/理解 生物医学图像分析 高光谱图像分析
人脸检测(Vaillant et al.93, 94)
人脸检测的艺术结果状态
卷积神经网络在生物图像切割方面的应用
场景解析/标记
场景解析/标记:多尺度卷积神经网络结构
46X46全像素窗口;92X92 1/2像素窗口;182X182 1/4像素窗口 [7X7卷积运算]->[2X2池化] ->[7X7卷积运算] ->[2X2池化] ->[7X7卷积运算] -> 监督式训练全标记图像
方法:通过超级像素区域选出主要部分
输入图像——超像素边界参数——超像素边界——通过超像素进行主要部分投票处理——类别与区域边界对齐 多尺度卷积网络——卷积网络特征(每个像素中d=768)卷积分类——“soft”分类得分
场景分析/标记
但是在以太网上传输特征限制了系统的表现
针对远程自适应机器人视觉的卷积网络(DARPA LAGR项目2005-2008)
输入图像 标记 分类输出
非常深的卷积网络架构
小内核,较少二次抽样(小部分二次抽样)
VGG GoogleNet Resnet
使用卷积网络进行对象检测和定位
分类+定位:多重移动窗口
只要计算整个图像的卷积并把全连接层复制
分类+定位:滑动窗口+限定框回归
即便目标不是完全包含在浏览窗口中,卷积网络也能猜测它认为这个目标是什么。
Deep Face
队列 卷积网络 度量学习
每天8亿张图片
使用卷积网络进行姿势预估和属性恢复
深度属性模型的姿势对齐网络
Zhang等 CVPR 2014 (Facebook AI Research)
人物检测和姿势预估
Tompson,Goroshin,Jain,Lecun,Bregler等 arxiv(2014)
监督卷积网络画图
监督卷积网络画图
全局(端对端)学习:能量模型
输入——卷积网络(或其他深度架构)——能量模块(潜在变量、输出)——能量
深度卷积网络(还有其他深度神经网络)
题图来自newscientist.com
via Yann Lecun