条件生成对抗网络(cGANs)为许多计算机视觉和图形应用提供了可控的图像合成。然而,最近的cGANs比现代识别CNNs的计算强度高1-2个数量级。例如,GauGAN每个映像消耗281G MACs,而MobileNet-v3只消耗0.44G MACs,这使得交互式部署非常困难。
麻省理工学院、Adobe研究中心以及上海交通大学的研究团队提出了一个通用的压缩框架来减少cGANs中生成器的推理时间和模型大小。直接应用现有的CNNs压缩方法会产生较差的性能,这是由于GAN训练的难度和生成器架构的差异造成的。
研究人员以两种方式应对这些挑战。
首先,为了稳定GAN训练,他们将原模型的多个中间表示的知识转移到其压缩模型中,将非成对和成对学习统一起来。
其次,他们的方法不是重用现有的CNN设计,而是通过神经架构搜索(NAS)自动找到有效的架构。
为了加速搜索过程,他们通过权值共享来解耦模型训练和架构搜索。
实验证明了在不同的监督设置(配对和不配对)、模型架构和学习方法(如pix2pix、GauGAN、CycleGAN)下的有效性。在不损失图像质量的前提下,他们将CycleGAN的计算量减少了20倍以上,GauGAN减少了9倍,为交互式图像合成铺平了道路。
团队在NVIDIA AGX Xavier (NVIDIA边缘计算利器 AGX Xavier memory翻倍,更重要的是...)上做的对比测试:
以下是团队在Jetson NANO(关于二代Jetson NANO开发套件常见问题)上做的对比测试:
点击https://arxiv.org/pdf/2003.08936v1.pdf 可以访问具体的论文