TensorFlow从1到2 | 第三章:深度学习革命的开端:卷积神经网络

关于全连接神经网络(Full Connected Neural Network,FC)的讨论已经说的不少了,本篇将要介绍的是,从2006年至今的神经网络第三次浪潮中,取得巨大成功、处于最核心位置的技术——卷积神经网络,Convolutional Neural Network(CNN)。

视觉皮层,来源:https://lilianweng.github.io/lil-log/2017/06/21/an-overview-of-deep-learning.html

一战成名

2012年AlexNet在ImageNet上一战成名,点爆了深度学习革命,这是历史性的时刻。其中

的故事,推荐朱珑(Leo Zhu)的《深度学习三十年创新路》(http://36kr.com/p/533832.html),讲的很精彩,下面的引用部分就是片段节选。

标志性事件是,2012年底,Geoff Hinton的博士生Alex Krizhevsky、Ilya Sutskever(他们研究深度学习时间并不长)在图片分类的竞赛ImageNet上,识别结果拿了第一名。其实类似的比赛每年很多,但意义在于,Google团队也在这个数据集上做了测试(非公开的,Google没有显式参加学术界的“竞赛”),用的也是深度学习,但识别精度比Geoff Hinton的团队差了很多,这下工业界振奋了。

ImageNet

如上图所示,2012年AlexNet的惊艳之处在于,它比上一年冠军的错误率25.8%低了近10个百分点。正是这前所未有的进步,引领人们穿透迷雾,望见了未来。

但更有意思的是(很有启发性并值得思考),Alex Krizhevsky 和 Geoff Hinton的竞赛用的正是 Yann Lecun 发明的卷积神经网,但结果刚出来时(实现细节还没有公布),Yann Lecun和他的NYU实验室成员甚至没法重复Geoff Hinton的结果。自己发明的算法,使用结果不如另外一个组。这下炸了锅,Yann Lecun开了组会,反思的主题是“为什么过去两年我们没有得到这样的成绩” 。

黑马AlexNet并不“新”,如上面节选所说,它其实脱胎于1998年即14年前就被Lecun提出的卷积神经网络LeNet-5,改动非常有限:

  • 采用ReLU而非S型神经元;
  • 网络更深;
  • 训练数据量更大;
  • 采用GPU训练;

前两点与网络架构相关,虽然ReLU的应用贡献良多,但就整个算法框架来说它们都算不上有实质性的改变。而后两点或许才是更根本的,得益于大数据和摩尔定律,AlexNet获得了可以用更多数据来训练网络所需要的算力。

而LeNet-5在当时的数据与算力条件下,显然不如其他的机器学习算法(核方法、图模型、SVM等)更有前景,冰封十余载才获得了认可。

神经科学的启示

就像20世纪40、50年代,受神经科学发现的启示,人类构建了人工神经元一样,1959年Hubel和Wiesel对哺乳动物视觉皮层机理的发现,让人类再次受到造物主的馈赠,卷积神经网络就是最成功的应用之一。

哈佛大学的神经生理学博士Hubel和Wiesel观察了猫大脑中的单个神经元如何响屏幕上的图像(https://www.youtube.com/watch?v=8VdFf3egwfg),他们发现处于视觉系统较前面区域的神经元对特定的光模式反应强烈,而对其他模式完全没有反应,这个部分被称为初级视觉皮层,Primary Visual Cortex,也被称为V1。他们凭借这个开创性的研究,在1981年获得了诺贝尔生理学或医学奖。

V1的发现开启了对人脑视觉系统进一步的认知,如本篇最前面引用的那幅图中所绘制的,当眼睛查看外界对象时,信息从视网膜流到V1,然后到V2(Secondary Visual Cortex),V4,之后是IT(Inferior Temporal Gyrus,颞下回)。哺乳动物的视觉系统是分层递进的,每一级都比前一级处理更高层次的概念:

  • V1:边缘检测;
  • V2:提取简单的视觉要素(方向、空间、频率、颜色等)
  • V4:监测物体的特征;
  • TI:物体识别;

卷积神经网络就是根据V1的3个性质设计的:

  • 空间映射:根据V1的空间映射特性,卷积神经网络中的各层都是基于二维空间结构的(末端的全连接层除外);
  • 简单细胞:V1中有许多简单细胞(simple cell),它们具有局部感受野,卷积网络中的卷积核据此设计;
  • 复杂细胞:V1中有许多复杂细胞(complex cell),用于响应简单细胞检测的特征,且对于微小偏移具有不变形,这启发了卷积网络中的池化单元;

V1其后的视觉区域,其实与V1具有相同的原理,特征检测与池化策略反复执行。同样,卷积网络架构的设计,也是卷积层和池化层重复叠加,形成深度层级。具有开创性的现代卷积网络LeNet-5,架构如下图所示:

LeNet-5

迂回前进的历史

卷积神经网络并不是一夜之间发明出来的,从2012年AlexNet开始追溯的话,还需要更多历史性时刻的支撑,即使是最早的卷积神经网络出现,也在Hubel和Wiesel实验的二十年后了。尽管神经科学给出了启示,却并没有告诉我们该如何训练卷积网络:

  • 1980年,日本科学家Fukushima构建了卷积神经网络,但当时反向传播算法还未准备好;
  • 1986年,Hinton成功将反向传播算法用于训练神经网络;
  • 1989年,LeCun开始基于反向传播算法训练二维卷积网络;
  • 1998年,LeCun提出第一个正式的卷积神经网络LeNet-5;

历史就是这样迂回前进的,一开始是各个独立、随机的小支流,随着时间的推进,最终汇聚在一起产生革命性的时刻。

原文发布于微信公众号 - 人工智能LeadAI(atleadai)

原文发表时间:2017-10-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

深度 | 生物神经网络基础:从尖峰放电神经元谈起

1312
来自专栏AI科技大本营的专栏

重磅 | 苹果发布最新论文: 揭秘Siri新声音背后的技术(文末福利)

翻译 | AI科技大本营(rgznai100) 2011 年 10 月,在 iPhone 4S 的发布会,Siri 作为首款语音助手,惊艳亮相,然而 6 年过后...

2658
来自专栏麻文华的专栏

我们教电脑识别视频字幕

作为深度学习在OCR领域的应用探索,我们微信模式识别中心与腾讯视频合作完成了视频字幕的自动识别。在此记录若干实践经验,与大家分享探讨。

2K4
来自专栏人工智能头条

采用深度学习算法为Spotify做基于内容的音乐推荐

1204
来自专栏机器之心

学界 | 用单张图片推理场景结构:UC Berkeley提出3D景深联合学习方法

选自BAIR Blog 作者:Shubham Tulsiani、Tinghui Zhou 机器之心经授权编译 参与:smith、蒋思源、李泽南 最近,UC Be...

2865
来自专栏计算机视觉战队

基于区域的目标检测——细粒度

今天是二月的第一天,是一个月的新的开始,估计现在有很多学生都已经进入了漫长的寒假,希望你们在寒假空闲之余可以慢慢来阅读我们的精彩推送。今天我们将的就是目标检测,...

31410
来自专栏机器之心

资源 | 从图像处理到语音识别,25款数据科学家必知的深度学习开放数据集

选自Analytics Vidhya 作者:Pranav Dar 机器之心编译 参与:陈韵竹、路 本文介绍了 25 个深度学习开放数据集,包括图像处理、自然语言...

2744
来自专栏AI研习社

数据分析秘籍在这里:Kaggle 六大比赛最全面解析(下)

AI 研习社按,在数据分析秘籍在这里:Kaggle 六大比赛最全面解析(上)一文中,AI 研习社介绍了结构化数据和 NLP 数据的处理方式,其中包括对 Tita...

1102
来自专栏AI科技大本营的专栏

他在Google Brain实习了一年,总结出这么些心得

作者 | Ryan Dahl 去年,在我研究TensorFlow出了一番成果后,我开始申请Google Brain的首届见习项目(Google Brain Re...

33614
来自专栏大数据文摘

李飞飞CS231n项目:这两位工程师想用神经网络帮你还原买家秀

每当某个明星或者时尚博主在微博或者朋友圈po出一张图,这就是一次低成本的营销机会。随着网购与照片分享变得越来越流行,利用用户原创内容(UGC, User Gen...

570

扫码关注云+社区