例子:
,使得模型
在训练集上达到最高正确率
,用训练好的模型预测其 类别,即
在ImageNet 图像识别挑战赛里,2010 和2011 年的冠军队伍都使用了经典的视觉方法,基于手工设计的特征+ 机器学习算法实现图像分类,Top-5 错误率在25% 上下。
在2012 年的竞赛中,来自多伦多大学的团队首次使用深度学习方法,一举将错误率降低至15.3% ,而传统视觉算法的性能已经达到瓶颈,2015 年,卷积网络的性能超越人类。
• 卷积神经网络 • 轻量化卷积神经网络 • 神经结构搜索 • Transformer
第一个成功实现大规模图像的模型,在ImageNet 数据集上达到~85% 的top-5 准确率。
特点:
VGG-19 19 层 ImageNet Top-5 准确率:92.7%
GoogLeNet 22 层 ImageNet Top-5 准确率:93.4%
将大尺寸的卷积拆解为多层3×3 的卷积,相同的感受野、更少的参数量、更多的层数和表达能力。
1 层5×5 的卷积与2 层3×3 的卷积有同样的感受野
模型层数增加到一定程度后,分类正确率不增反降
实验的反直觉
卷积退化为恒等映射时,深层网络与浅层网络相同。所以,深层网络应具备不差于浅层网络的分类精度。
猜想:虽然深层网络有潜力达到更高的精度,但常规的优化算法难以找到这个更优的模型。即,让新增加的卷积层拟合一个近似恒等映射,恰好可以让浅层网络变好一点
残差建模:让新增加的层拟合浅层网络与深层网络之间的差异,更容易学习。梯度可以直接回传到浅层网络监督浅层网络的学习。没有引入额外参入,让参数更有效贡献到最终的模型中
ResNet-34 34层ImageNet Top-5 准确率:94.4%
5 级,每级包含若干残差模块,不同残差模块个数不同ResNet 结构
使用bottleneck 模块替换basic 模块,进一步增加每级种残差模块的个数。
ResNet等同于多模型集成:残差网络有
个隐式的路径来连接输入和输出,每添加一个块会使路径数翻倍。
Loss Surface 更加平滑,更容易收敛到局部/全局最优解