前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >TryOnDiffusion-Google最强虚拟试衣App

TryOnDiffusion-Google最强虚拟试衣App

作者头像
iResearch666
发布2023-09-13 14:08:00
1.9K0
发布2023-09-13 14:08:00
举报
文章被收录于专栏:AI算法能力提高班

TryOnDiffusion: A Tale of Two UNets


  • paper https://arxiv.org/abs/2306.08276
  • code https://tryondiffusion.github.io/?ref=louisbouchard.ai

image-20230809120431545


Abstract

  • key challenge: 合成照片写实级的保留衣服细节,同时形变到相应的人体姿态和形态上
  • 本文提出了diffusion-based架构,统一了2个UNets,即为paralle-UNet
    • 衣服形变:通过cross attention机制进行隐式形变
    • 衣服形变和人体混合: 将2个任务序列统一为一个过程

Contributions

  1. 1k分辨率,复杂body pose,保留衣服细节(图案,文字,标签)
  2. 提出parralle-UNet用attention实现隐式warping,而且将warping和blending统一为一个网络

Related Work

  • Image-Based Virtual Try-On
    • previous works将try-on分解为2个子任务 warping 和 blending,比如VTTON利用TPS进行warping,ClothFlow利用flow fields进行warping。VITON-HD, HR-VITON提高了生成图像的分辨率到1K。SDAFN通过deformable attention提高了质量。
    • 但是上述方法都存在misalignment没有对齐问题,原因是通过显式的warping或者flow estimation带来的对齐误差。
    • Tryongan利用unpaired数据训练 pose-guided stylegan2,在latent space进行优化,但是隐空间会丢失衣服的细节
  • Diffusion Models
    • 比GAN有很好的稳定性和更容易收敛
    • 使用通道拼接的UNet架构,在图像翻译问题上效果很好
    • 但是,garment warping是一个非线性问题,不适合通道拼接,所以提出了parallel-UNet,通过cross attention实现implicitly warping

Methodology

Overview

image-20230809141036254

Preprocessing of inputs

  • 估计person和garment的segmentation和keypoints
  • 对person,对garment因为clothing-agnostic RGB described in VITON-HD 存在衣服信息泄露,需要将cloth info去掉,同时复制粘贴只保留了三部分head hand lower-body

Cascaded Diffusion Models for Try-On

包括1个基本的diffusion模型和2个超分diffusion模型

  • base diffusion model
    • 128X128 parallet-unet
    • 输入的noise进行conditioning augmentation
  • super-resolution (SR) diffusion models
    • as Efficient-UNet introduced by Imagen
    • Photorealistic text-to-image diffusion models with deep language understanding
    • https://arxiv.org/abs/2205.11487
    • 256X256 parallet-unet
    • 128X128 -> 256X256 (tryon stage)
    • 256X256 -> 1024X1024 (only super resolution stage)

Parallel-UNet

  • Implicit warping
    • 不能直接用通道拼接方法,因为传统的UNet使用空间卷积和空间自注意力,这些操作本省就有很强的像素级bias
    • 提出cross attention,结合多头学习不同表征子空间特征
  • Combining warp and blend in a single pass

    image-20230809144454208

    image-20230809150820234

    • 通过cross attention将衣服特征融合到目标图像
    • 在32X32block出提前停止,

    image-20230809144316562

    • 通过通道拼接作为输入

    image-20230809144113648

    • 1个person unet
    • 1个garment unet
    • cross attention
    • person和garment的pose作为guidence非常必要

image-20230809144006944

Experiments

Datasets

  • 400万张paried dataset进行训练,每个sample都是同一个人穿同一件衣服不同姿态
  • 6000张unpaired 进行测试, 每个sample都是2个不同的人穿2件不同衣服,2种不同姿态
  • 图像都crop-resize到1K分辨率,同时检测2D 18个关键点

Implementation details

  • DDPM https://nn.labml.ai/diffusion/ddpm/index.html
  • DDIM https://huggingface.co/docs/diffusers/api/schedulers/ddim

Results

image-20230809145257583

image-20230809150208236

image-20230809150224259

image-20230809150338619

Conclusions

  • 适合穿衣服的人,如果只有衣服就无法估计pose,不适用这种情况
  • 在复杂pose下,garment warping和detail-preserving效果确实很好

Limitation

  • leaking artifacts: 来自segentation和pose的误差
  • 使用clothing-agnostic RGB 不够理想,因为有时候只能保留部分identity
  • 数据集背景统一且干净,在复杂背景下效果没有实验

References

  • https://www.walmart.com/cp/virtual-try-on/4879497
  • FiLM: Visual Reasoning with a General Conditioning Layer
    • https://arxiv.org/abs/1709.07871
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-08-09 16:35,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 iResearch666 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Abstract
  • Contributions
  • Related Work
  • Methodology
    • Overview
      • Preprocessing of inputs
        • Cascaded Diffusion Models for Try-On
          • Parallel-UNet
          • Experiments
            • Datasets
              • Implementation details
                • Results
                • Conclusions
                  • Limitation
                  • References
                  领券
                  问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档