前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >每日学术速递11.25

每日学术速递11.25

作者头像
AiCharm
发布2023-11-27 14:47:58
2040
发布2023-11-27 14:47:58
举报
文章被收录于专栏:AiCharm

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

点击下方卡片,关注「AiCharm」公众号

Subjects: cs.CV

1.Drivable 3D Gaussian Avatars

标题:可驾驶的 3D 高斯化身

作者:Wojciech Zielonka, Timur Bagautdinov, Shunsuke Saito, Michael Zollhöfer, Justus Thies, Javier Romero

文章链接:https://arxiv.org/abs/2311.08581

项目代码:https://zielon.github.io/d3ga/

摘要:

我们推出了可驾驶 3D 高斯化身 (D3GA),这是第一个用高斯图形渲染的人体 3D 可控模型。当前逼真的可驾驶化身需要训练期间准确的 3D 配准、测试期间的密集输入图像,或两者兼而有之。基于神经辐射场的那些对于远程呈现应用来说也往往慢得令人望而却步。这项工作使用最近提出的 3D 高斯泼溅 (3DGS) 技术,使用密集校准的多视图视频作为输入,以实时帧速率渲染逼真的人体。为了使这些基元变形,我们放弃了常用的线性混合蒙皮 (LBS) 点变形方法,并使用经典的体积变形方法:笼变形。考虑到它们的尺寸较小,我们用关节角度和关键点驱动这些变形,这更适合通信应用。当使用相同的训练和测试数据时,我们对九个具有不同体型、衣服和动作的受试者进行的实验获得了比最先进的方法更高质量的结果。

2.The Chosen One: Consistent Characters in Text-to-Image Diffusion Models

标题:选择的一个:文本到图像扩散模型中的一致特征

作者:Omri Avrahami, Amir Hertz, Yael Vinker, Moab Arar, Shlomi Fruchter, Ohad Fried, Daniel Cohen-Or, Dani Lischinski

文章链接:https://arxiv.org/abs/2311.10093

项目代码:https://omriavrahami.com/the-chosen-one/

摘要:

文本到图像生成模型的最新进展释放了视觉创造力的巨大潜力。然而,这些模型在生成一致的角色方面遇到了困难,而这对于故事可视化、游戏开发资产设计、广告等众多现实应用程序来说是一个至关重要的方面。当前的方法通常依赖于目标角色的多个预先存在的图像或涉及劳动密集型的手动过程。在这项工作中,我们提出了一种用于一致字符生成的全自动解决方案,唯一的输入是文本提示。我们引入了一个迭代过程,在每个阶段,识别一组具有相似身份的连贯图像,并从该组中提取更一致的身份。我们的定量分析表明,与基线方法相比,我们的方法在即时对齐和身份一致性之间取得了更好的平衡,并且这些发现得到了用户研究的证实。最后,我们展示了我们方法的几个实际应用。

3.Emu Edit: Precise Image Editing via Recognition and Generation Tasks

标题:Emu Edit:通过识别和生成任务进行精确的图像编辑

作者:Shelly Sheynin, Adam Polyak, Uriel Singer, Yuval Kirstain, Amit Zohar, Oron Ashual, Devi Parikh, Yaniv Taigman

文章链接:https://arxiv.org/abs/2311.10089

项目代码:https://github.com/THUDM/ImageReward

摘要:

基于指令的图像编辑在各种应用中具有巨大的潜力,因为它使用户能够使用自然语言指令执行任何编辑操作。然而,该领域的当前模型常常难以准确执行用户指令。我们推出了 Emu Edit,这是一种多任务图像编辑模型,它在基于指令的图像编辑中设置了最先进的结果。为了开发 Emu Edit,我们训练它执行前所未有的多任务任务,例如基于区域的编辑、自由格式编辑和计算机视觉任务,所有这些都被制定为生成任务。此外,为了增强 Emu Edit 的多任务学习能力,我们为其提供了学习任务嵌入,指导生成过程走向正确的编辑类型。这两个要素对于Emu Edit 的出色表现都是必不可少的。此外,我们仅通过一些标记示例表明 Emu Edit 可以推广到新任务,例如图像修复、超分辨率和编辑任务的组合。在高质量样本稀缺的情况下,此功能具有显着优势。最后,为了促进对可指导图像编辑模型进行更严格和更明智的评估,我们发布了一个新的具有挑战性和多功能的基准,其中包括七种不同的图像编辑任务。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-11-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AiCharm 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档