【GiantPandaCV导语】
Towards Compact Single Image Super-Resolution via Contrastive Self-distillation 利用对比自蒸馏实现超分加速 (IJCAI 2021)原创论文解读,首发于GiantPandaCV公众号,禁止其他任何形式的转载!
卷积神经网络在超分任务上取得了很好的成果,但是依然存在着参数繁重、显存占用大、计算量大的问题,为了解决这些问题,作者提出利用对比自蒸馏实现超分模型的压缩和加速。
作者提出的CSD框架主要包含两个部分:CSSR-Net和Contrastive loss。先简单介绍一下 channel-splitting super-resolution network (CSSR-Net), CSSR-Net其实可以是任何超分网络的子网络,与原网络的区别仅在于channel数量上,在CSD框架中作为学生网络,来作为加速优化的目标产物模型。
如图中所示,在CSD框架中,CSSR-Net被耦合进教师网络,共享教师网络的部分参数(即共同参数部分)。
在训练过程中联合优化的目标函数为:
作者发现,如果只有单独的知识蒸馏(即不加对比损失来进一步提高模型性能),训练后得到的模型效果其实更差,详见表1。
作者推测其原因为:隐式的知识蒸馏不够强,无法通过两项独立的损失项来提供足够insightful的信息。因此作者引进对比学习来显示的在学生和教师之间建立一种联系,为优化目标提供了一个封闭的上下限,从而同时提高学生网络和教师网络的性能。上限被构建来将CSSR-Net的输出向教师拉近,下限来限制CSSR-Net的输出远离负样本。
论文中的对比学习损失其实非常简单,基本和论文作者团队在AECR-Net(“Contrastive learning for single image dehazing”)中的contrastive loss一致:
其中,是VGG预训练网络的第层,M是总隐藏层的数量,是损失,我们希望上式的分母越大越好,分子越小越好。这种损失引入了相反的力,将CSSR-Net的输出向其教师的输出特征拉近,向负样本的特征拉远。
感知损失与CL相比,其只有一个优化的上限来限制学生网络的输出,与感知损失不同,Contrastive learning使用了多种负样本来作为一个优化的下限目标减小解空间,并且进一步提高CSSR—Net和教师网络的性能。
1644071046025.png
1644071013344.png
1644071021983.png
这篇论文还是很有趣的,通过自蒸馏来实现超分模型的加速和压缩,出发点很好,但是性能上的提高感觉不是非常显著,对比学习损失其实和作者团队cvpr21的对比学习去雾基本一致。这篇论文让我想到cvpr20中一篇利用memory unit实现自蒸馏去雨的论文,也很有趣。
完
本文分享自 GiantPandaCV 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!