前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >通过 StyleGAN Prior 进行可扩展人脸图像编码:面向人机协作视觉的压缩

通过 StyleGAN Prior 进行可扩展人脸图像编码:面向人机协作视觉的压缩

作者头像
用户1324186
发布2024-06-25 20:45:41
920
发布2024-06-25 20:45:41
举报
文章被收录于专栏:媒矿工厂媒矿工厂

来源:IEEE Transactions on Image Processing 2023 题目:Scalable Face Image Coding via StyleGAN Prior: Toward Compression for Human-Machine Collaborative Vision 作者:Qi Mao, Chongyu Wang, Meng Wang 原文链接: https://ieeexplore.ieee.org/abstract/document/10372532 内容整理:刘潮磊 视觉内容的增多和机器视觉技术的快速发展为大规模视觉数据的传输带来了重大挑战,这些数据必须得到有效的表示以满足人类和机器的需求。在这项工作中,研究了如何利用从高级生成先验中得到的层次表示来构建人机协作视觉的高效可扩展编码范式。本文的关键是:通过利用 StyleGAN 先验,可以学习编码层次语义的三层表示,这些表示被精心设计到基础层、中间层和增强层中,以渐进的方式支持机器智能和人类视觉感知。为了实现高效压缩,本文提出了分层可扩展熵变换器来减少层之间的冗余。基于多任务可扩展率失真目标,对所提出的方案进行联合优化,以实现最佳的机器分析性能、人类感知体验和压缩比。本文验证了所提出的范式在人脸图像压缩中的可行性。大量定性和定量实验结果表明,所提出的范式在机器分析和极低比特率(< 0.01 bpp)下的人机感知方面均优于最新的压缩标准多功能视频编码(VVC),为人机协作压缩提供了新的见解。

引言

研究问题:针对人脸图像,对人眼、机器视觉设计一个分层编码器。

SOTA 工作与所属团队:

  • Towards analysis-friendly face representation with scalable feature and texture compression. Shurun Wang 香港城市大学
  • Scalable image coding for humans and machines. Hyomin Choi 西蒙菲莎大学

动机:

  • StyleGAN可以应用于image-to-image,将输入图像映射到18个向量,分别控制生成图像的不同部分(从轮廓到细节)
  • 这篇文章在此基础上,将StyleGAN应用到分层编码

贡献:

  • 设计了一个基于StyleGAN的分层编码网络
  • 针对不同层,设计了分组的熵模型

方法

模型框架

图1

  • 将输入图像映射到18个style vectors
  • 每个style vectors维度都是1x512
  • 将这些向量分为三组
  • 对18个style vectors编码
  • 重建过程中对不同任务采用不同层级的style vectors进行重建

通过style vectors实现分层语义表示

1. 按照输入generator的次序可以将18个style vectors分为三组:

图2

  • 控制轮廓信息
  • 蕴含面部细节
  • 控制更多纹理结构

2. ~ 分别从最高层级~最低层级的特征图中映射得到:

图3

  • 包含从高层次特征图中提取出的简单任务所需的语义信息
  • 包含重建整张图像所需的细节信息

3. 引入平均style vector :

𝑧是输入图像,𝑓是图像到𝑤的映射,表示训练集映射后的平均style vector

4. 重建图像:

对三种层级的任务分别应用三层style vector加上得到

熵模型

图4

1. Hyper Transformer:

Hyper encoder/decoder由一系列self-attention组成。

图5

  • Hyper encoder中的transformer block的attention是没有mask的
  • 在针对简单任务(只需要)时,不需要传输、
  • Hyper decoder中的transformer block加入mask,遮挡其他层的信息

2. Entropy Transformer:

相当于分组的自回归熵模型,分为 ~ 三组

图6

以为例:

  • 经过之前提出的transformer模块
  • 将hyper transformer中预测得到的与一起进行multi-head cross attention得到新的

损失函数

对每个下游任务都设置了相应的任务损失:

  • 面部标志点检测(Landmark Detection):
  • 面部分割(Facial Segmentation):
  • 面部识别(Facial Identity):
  • 人眼感知(Human Perceptual):
  • 对抗训练(Adversarial Training):

实验设计与验证

实验设置

数据集(人脸数据集;1024x1024分辨率):

  • 训练:FFHQ dataset
  • 测试:CelebA-HQ dataset

训练细节:

  • 权重由预训练的StyleGAN2 generator/discriminator初始化、
  • generator与本文提出的其他模块同步优化
  • 不引入对抗训练50k步,引入对抗训练10k步
  • 后续也针对没有在损失函数中直接优化的任务进行实验,在这些任务上也表现良好

实验结果

Basic Layer(𝐿_1层):面部标志点检测、面部解析

图7

左图为面部标志点检测任务,右图为面部解析任务。

Middle Layer(𝐿_2层):面部识别、面部属性预测

图8 面部识别结果

图9 面部属性预测结果

Enhanced Layer(𝐿_3层):人眼感知

图10

分层效果探究:

表1

可以看出,基础层在基本任务(Landmark Detection, Face Parsing)上表现良好,中间层在额外的高级任务(Identity Recognition)上表现较好,增强层在包含人眼感知在内的所有任务上都表现良好,说明本文的网络有着很好的分层处理效果。

消融实验:

表2

表3

结论

这项工作中提出了利用 StyleGAN 先验的分层style vector作为紧凑的视觉数据表示,将其分层语义信息分配到基础层、中间层和增强层,以逐步支持机器分析和人类感知。所提方案的新颖之处在于三层表示的分层语义信息分配、分层可扩展熵变换器的跨层相关性降低以及设计的多任务可扩展优化策略,从而实现高效的人机协作压缩。本文展示了所提方案在人脸图像压缩方面的卓越性能:与最新的传统和基于学习的压缩范式相比,每个可扩展层上的相应视觉任务都可以更有效地执行。总体而言,所提出的方案通过展示从生成先验中得出的语义表示如何为开发人机协作视觉的高效可扩展编码方案提供新见解,推动了图像/视频编码研究领域的发展。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 媒矿工厂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 引言
  • 方法
    • 模型框架
      • 通过style vectors实现分层语义表示
        • 熵模型
          • 损失函数
          • 实验设计与验证
            • 实验设置
              • 实验结果
              • 结论
              领券
              问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档