随着深度学习的发展,人们在基于大规模数据集的图像分类任务上已经取得了明显的进步。但针对小样本数据集,基于深度卷积神经网络的网络结构往往会因为过拟合问题而无法得到理想的结果。本文为小样本特别是one-shotlearning 提供了一种新的思路。如下图所示,与传统分类问题采用深度CNN网络不同的是,本文采用了纯RNN网络,利用RNN的记忆功能模仿人类对比不同照片时的过程:
如上图所示,此论文利用注意力机制不断地比对两张照片,最终通过比较存储在动态表达空间内的相对特征完成两个字符是否是同一类的判断。
一、方法论述
在论文中,作者提出了一种新的针对单样本分类任务的方法。如上图所示,该方法通过一种纯RNN网络在Omniglot数据集的one-shot分类问题上首次超越了人类水平。具体来说,每次glimpse(文章把每次对图片进行的一次局部扫描成为一次glimpse)依次交替扫描ImageA和ImageB的某个局部,并将提取到的相对特征存储在动态表示空间(dynamic representation space)内 。最后,通过接在整个RNN网络后的classifier得到分类效果。
二、实验结果
1. 注意力机制结果
本论文的实验主要包括验证注意力机制和验证分类准确率两个部分。首先,本文可视化了循环比较器注意力框的变化过程:
从图中可以看到,虽然上下两幅图像很像,但是通过网络的学习,循环比较器的注意力框最终稳定在了两幅图片区别最大的地方。有效说明了基于注意力机制的递归比较器的有效性。
2、准确率结果
本文章的分类实验主要包括了两个数据集。首先是Omniglot数据集。从上一个实验已经可以看出,循环比较器的注意力框可以有效地找到两张字符图片不同的部分。
如上图所示,通过在Omniglot上的分类实验可以看出,循环递归比较器对于字符的识别准确率达到了98.5%,这一结果也首次超越了人类识别的平均水平。最后是循环递归比较器在miniImageNet上的结果:
上表是该方法在miniImageNet上的分类结果。从表中可以看出,由于图像的复杂性,与目前各个框架类似的是,该方法依旧没有在miniImageNet数据集上取得比较好的分类效果。当然,这也说明对于比较复杂图片分类任务依旧有很多挑战在等着我们。
三、总结
在本文中,作者提出了基于关注点的递归比较器来解决one-shot 分类问题。与传统方法采用深度卷积神经网络不同的是,本文利用RNN的记忆性,构建了基于RNN的递归式比较网络。通过详细的实验表明,本工作利用RNN的记忆功能在Ominiglot数据集上的分类准确率首次超越了人类平均水平。但是,在miniImageNet数据集上的分类结果还有很大的提升空间。
参考文献
1. Santoro, Adam, Bartunov, Sergey, Botvinick, Matthew,Wierstra, Daan, and Lillicrap, Timothy. One-shot learn-ing with memory-augmented neural networks. arXiv preprint arXiv:1605.06065, 2016.
2.Gregor, Karol, Danihelka, Ivo, Graves, Alex, Rezende,Danilo Jimenez, and Wierstra, Daan. Draw: A recurrent neural network for image generation. arXiv preprint arXiv:1502.04623, 2015.
领取专属 10元无门槛券
私享最新 技术干货