首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >AiCharm >每日学术速递9.15

每日学术速递9.15

作者头像
AiCharm
发布2023-09-19 20:05:17
1080
发布2023-09-19 20:05:17
举报
1.Learning Disentangled Avatars with Hybrid 3D Representations

标题:使用混合 3D 表示学习解开的化身

作者:Yao Feng, Weiyang Liu, Timo Bolkart, Jinlong Yang, Marc Pollefeys, Michael J. Black

文章链接:https://arxiv.org/abs/2309.06441

项目代码:https://yfeng95.github.io/delta/

摘要:

为了学习可动画且逼真的人类化身,人们付出了巨大的努力。为此,人们对显式和隐式 3D 表示进行了大量研究,以实现对整个人类(例如身体、衣服、面部和头发)的整体建模和捕捉,但就表示功效而言,这两种表示都不是最佳选择,因为不同的部位不同的人类头像有不同的造型需求。例如,网格通常不适合对服装和头发进行建模。受此启发,我们提出了 Disentangled Avatars~(DELTA),它用混合显式-隐式 3D 表示来模拟人类。DELTA 采用单眼 RGB 视频作为输入,生成具有独立身体层和衣服/头发层的人体头像。具体来说,我们演示了 DELTA 的两个重要应用。对于第一个,我们考虑解开人体和衣服,在第二个中,我们解开面部和头发。为此,DELTA 使用基于网格的显式参数化 3D 模型来表示身体或面部,并使用隐式神经辐射场来表示衣服或头发。为了实现这一点,我们设计了一个端到端可微渲染器,将网格集成到体积渲染中,使 DELTA 能够直接从单目视频中学习,而无需任何 3D 监督。最后,我们展示了如何轻松组合这两个应用程序来建模全身头像,从而使头发、脸部、身体和衣服可以完全分离并共同渲染。这种解开使得头发和衣服能够转变为任意体型。我们通过展示 DELTA 在解缠结重建、虚拟试衣和发型转移方面的良好表现,实证验证了 DELTA 解缠结的有效性。为了促进未来的研究,我们还发布了一个用于混合人类头像建模研究的开源管道。

2.PhotoVerse: Tuning-Free Image Customization with Text-to-Image Diffusion Models

标题:PhotoVerse:使用文本到图像扩散模型进行免调整图像定制

作者:Li Chen, Mengyi Zhao, Yiheng Liu, Mingxu Ding, Yangyang Song, Shizun Wang, Xu Wang, Hao Yang, Jing Liu, Kang Du, Min Zheng

文章链接:https://arxiv.org/abs/2309.05793

项目代码:https://photoverse2d.github.io/

摘要:

个性化文本到图像生成已成为一种强大且广受欢迎的工具,使用户能够根据自己的特定概念和提示创建自定义图像。然而,现有的个性化方法遇到了多种挑战,包括调整时间长、存储需求大、每个身份需要多个输入图像以及保留身份和可编辑性方面的限制。为了解决这些障碍,我们提出了 PhotoVerse,这是一种创新方法,在文本和图像域中结合了双分支调节机制,提供对图像生成过程的有效控制。此外,我们引入面部身份丢失作为一种新的组成部分,以增强训练期间身份的保存。值得注意的是,我们提出的 PhotoVerse 消除了测试时间调整的需要,并且仅依赖于目标身份的单张面部照片,从而显着降低了与图像生成相关的资源成本。经过单个训练阶段后,我们的方法只需几秒钟即可生成高质量图像。此外,我们的方法可以产生包含各种场景和风格的多样化图像。广泛的评估证明了我们的方法的卓越性能,它实现了保留身份和促进可编辑性的双重目标。

Subjects: cs.CL

3.InstaFlow: One Step is Enough for High-Quality Diffusion-Based Text-to-Image Generation

标题:InstaFlow:一步就足以生成基于扩散的高质量文本到图像

作者:Xingchao Liu, Xiwen Zhang, Jianzhu Ma, Jian Peng, Qiang Liu

文章链接:https://arxiv.org/abs/2309.06380

项目代码:https://github.com/gnobitab/InstaFlow

摘要:

扩散模型以其卓越的质量和创造力彻底改变了文本到图像的生成。然而,众所周知,其多步采样过程很慢,通常需要数十个推理步骤才能获得满意的结果。之前通过蒸馏提高采样速度并降低计算成本的尝试未能成功实现功能性一步模型。在本文中,我们探索了一种名为“整流流”的最新方法,迄今为止,该方法仅适用于小型数据集。整流流的核心在于其 \emph{reflow} 过程,它拉直概率流的轨迹,细化噪声和图像之间的耦合,并促进学生模型的蒸馏过程。我们提出了一种新颖的文本条件管道,将稳定扩散(SD)转变为超快的一步模型,其中我们发现回流在改善噪声和图像之间的分配方面发挥着关键作用。据我们所知,利用我们的新管道,我们创建了第一个基于单步扩散的文本到图像生成器,具有 SD 级图像质量,实现了 23.3 → 23.3 在 FID 中)。通过利用具有 1.7B 参数的扩展网络,我们进一步将 FID 改进为 22.4 。我们将我们的一步模型称为 \emph{InstaFlow}。在 MS COCO 2014-30k 上,InstaFlow 在短短 0.09 秒内产生 13.1 的 FID,是 ≤0.1 秒内最好的,优于最近的 StyleGAN-T( 13.9 在 0.1 秒)。值得注意的是,InstaFlow 的训练仅花费 199 个 A100 GPU 天。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2023-09-15 07:02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AiCharm 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档