fine-tuning的二三事

GavinZhou

发布于 2018-01-02 15:57:59

6990

发布于 2018-01-02 15:57:59

日常的应用中，我们会很经常遇到一个问题：

如何应用强大的model(比如ResNet)去训练我们自己的数据？

考虑到这样的几个事实:

解决方法就是fine-tuning.

方式

参考CS231的资料，有三种方式

ConvNet as fixed feature extractor. 其实这里有两种做法： (1) 使用最后一个fc layer之前的fc layer获得的特征，学习个线性分类器(比如SVM) (2) 重新训练最后一个fc layer
Fine-tuning the ConvNet. 固定前几层的参数，只对最后几层进行fine-tuning
Pretrained models. 这个其实和第二种是一个意思，不过比较极端，使用整个pre-trained的model作为初始化，然后fine-tuning整个网络而不是某些层

考虑两个问题：

分为四种情况，解决方法基于的原则就是:

NN中的低层特征是比较generic的，比如说线、边缘的信息，高层特征是Dataset Specific的，基于此，如果你的数据集和ImageNet差异比较大，这个时候你应该尽可能的少用pre-trained model的高层特征.

数据集小(比如<5000)，相似度高这是最常见的情况，可以仅重新训练最后一层(fc layer）
数据集大(比如>10000)，相似度高 fine-tuning后几层，保持前面几层不变或者干脆直接使用pre-trained model作为初始化，fine-tuning整个网络
数据集小，相似度低小数据集没有办法进行多层或者整个网络的fine-tuning，建议保持前几层不动，fine-tuning后几层(效果可能也不会很好)
数据集大，相似度低虽然相似度低，但是数据集大，可以和2一样处理

从上面我们可以看出，数据集大有优势，否则最好是数据集和原始的相似度比较高；如果出现数据集小同时相似度低的情况，这个时候去fine-tuning后几层未必会有比较好的效果.