Github 704星：GAN潜语义闭式因子化，一作香港中文大学博士

新智元

发布于 2021-07-29 17:14:58

9650

发布于 2021-07-29 17:14:58

文章被收录于专栏：新智元新智元

新智元报道

来源：GitHub

编辑：LRS

【新智元导读】太强了！香港中文大学博士沈宇军在CVPR 2021上发表了5篇论文，其中一篇是提出了一种可解释的GAN模型，用无监督的方法对GAN模型中的隐向量来解释。

顶会中到手软是什么体验？

香港中文大学的博士生沈宇军在CVPR 2021上总共发表了5篇论文，其中两篇oral，两篇workshop，工作效率惊人。

其中一篇论文解释了GAN模型隐空间向量的可解释性问题。

对于GAN来说，在它的隐空间中，一套丰富的可解释的维度已经被用来训练合成图像。

但是为了识别出用于图像编辑的这种隐维度来说，之前的方法主要是使用一系列合成后的样例在隐空间中训练，这种方法要求对目标属性清晰的定义和人工标注数据，但现实应用中往往缺乏这样的条件。

针对这个问题，沈宇军提出一种解决方案，通过使用GAN模型的内部表示，以一种无监督的方式来揭示潜在的变化因素。这个方法不仅能够找到与最先进的监督方法相当的语义上有意义的维度，而且还能够在多个 GAN 模型中针对广泛的数据集训练出更多样化的概念。

沈宇军是香港中文大学的博士，2021年4月加入字节跳动公司成为高级研究员。在此之前，他先后获得香港中文大学多媒体实验室信息工程博士学位和清华大学电子工程与管理学士学位。他的研究主要集中在计算机视觉、深度学习和表征学习，特别是生成模型和下游应用。

本文的第二作者是周博磊教授，是沈宇军的导师，周博士于2018年获得麻省理工学院电子工程与计算机科学系博士学位。2012年他获得了香港中文大学信息工程系的 M.Phil 学位，2010年获得了生物医学工程上海交通大学的 B.Eng 学位。他曾获得著名的 Facebook 奖学金、微软亚洲研究院奖学金、麻省理工大中华区奖学金，以及麻省理工学院何青和韩青基金奖和中大杰出论文奖。他在深度网络解释方面的研究被 TechCrunch，Quartz 和 MIT News 等媒体报道。他在 CVPR’17和 CVPR’18分别组织了视觉识别和解释机器学习的深度学习教程，并在 ICCV’17、 ECCV’16和 ICCV’15共同组织了研讨会。

在Closed-Form Factorization of Latent Semantics in GANs这篇论文中，提出了一个封闭形式的(closed-form)的算法，叫做Sefa（latent Semantics Factorization in GANs）。这个模型研究了第一个采用全连接层的GAN生成器。研究人员认为，这一层实际上过滤了一些可忽略的方向在潜在的空间和突出方向，但对于图像合成是至关重要的。通过找到这些重要的方向，能够确定各种类型的 GAN 模型的通用语义，并且实现非常快（少于1秒)的GAN模型。

SeFa能够进一步观察到GANs的生成机制，通过分解模型权重来指示出在隐空间语义上有意义的方向。

论文的目标是使用无监督的方法从GANs的隐空间中揭示可解释的因素（即下面这个公式中的方向n）。GAN的生成器可以被视为多步骤的功能，逐步把隐藏空间中的向量映射到图像空间中，通过仿射变换可以得到如下公式：

可以观察到这个操作过程是和每个样例是是无关的，换句话说，任意给定一个隐藏空间的编码z，再加上潜在的方向n，编辑（editing）总是能够可以通过把向量An加到映射后的编码上获得。从这个角度来看权重参数A应包含基本知识和图像的变化。

基于这个想法，提出了一个与data sampling和model training都无关的一种非监督方法，通过解决下面这个优化问题可以用来做语义分解（semantic factorization）

为了测试这个closed-form算法，研究人员找了大量的数据来自动发现可解释方向的模型，也将SeFa与现有的有监督和无监督方法进行比较来证明其有效性。

SeFa算法可以解释一个基于样式的layer子集生成器。在广泛的数据集上，包括动画人脸、物体、场景和街景，在训练后的模型上评估SeFa。在底层、中间层和顶层尝试解释一个目标。下图展示了在这些模型中可以找到方向多种多样的语义。能够明显地发现它们被组织成一个层次结构，这与先前工作的观察结果一致。例如以汽车为中心，底层倾向于控制旋转，中间层决定形状，而顶层对应颜色。

在基于样式的生成器中发现的层次可解释方向。其中，街景模型是用StyleGAN 2训练的，其他模型是用StyleGAN训练的。

进一步进行用户研究SeFa发现的分解因子如何与人类感知相联通，作者找了10位标注人员进行提问，可以看到SeFa确实可以在GAN模型中找到人类可以理解的概念，甚至在某些特定的层次也可以找到有意义的结果。

与达到sota性能的有监督方法InterfaceGAN(拥有良好的人脸属性定义)相比，文中又在人脸合成模型上进行了对比。

定性结果上分析，上图展示了一些被语义识别出来的操作结果。可以看得出来SeFa的表现与InterFaceGAN相似，从编辑姿势，性别，眼镜的角度，和表情（微笑），表明它的有效性。更重要的是，InterFaceGAN需要大量的采样数据和训练前属性预测。相比之下，SeFa完全不需要数据采样和模型训练，更有效，更具泛化性能。

重评分（Re-scoring）分析。相对于定量分析，根据CelebA数据集上使用ResNet50训练一个属性预测器。有了这个预测器，能够进行重新评分分析，以量化评估确定的方向是否正确表示相应的属性。研究人员在某个发现的方向随机抽取2000个图像，然后使用准备好的预测器去检查在这种情况下语义操纵过程得分如何变化。观察结论有三点

1、SeFa可以充分指出一些属性，如姿势和性别，类似于InterFaceGAN

2、当改变一个语义时，InterFaceGAN对其他属性显示出更强的健壮性，因为他是有监督的训练方式。例如，年龄以及对应于相同隐藏方向的眼镜由SeFa确定。这是因为训练数据有偏向性（例如老年人更倾向于戴眼镜）。相比之下，涉及标签作为监督可以一定程度上帮助学习更准确的方向

3、SeFa未能发现与眼镜相对应的方向。原因是眼镜的存在并不是很大的变化，因此不满足优化目标。

多样性比较。有监督方法高度依赖于可用的属性预测器。相比之下，文中提出的方法更具通用性，可以在潜在的空间里发现更多不同的语义。例如在下图中比InterFaceGAN性能更好，例如成功地识别与发色、发质相对应的方向风格，和亮度。这些属性的预测值在实际应用中并不容易获得。此外，有监督方法能够处理的属性目标通常是有限的，例如，InterFaceGAN是建议处理二元属性。