前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >每日学术速递9.18

每日学术速递9.18

作者头像
AiCharm
修改2023-09-27 12:44:38
1770
修改2023-09-27 12:44:38
举报
文章被收录于专栏:AiCharm
1.Tree-Structured Shading Decomposition(ICCV 2023)

标题:树结构着色分解

作者:Chen Geng, Hong-Xing Yu, Sharon Zhang, Maneesh Agrawala, Jiajun Wu

文章链接:https://arxiv.org/abs/2309.07122

项目代码:https://chen-geng.com/inv-shade-trees

摘要:

我们研究从单个图像推断树形结构表示以进行对象着色。先前的工作通常使用参数或测量的表示来对着色进行建模,这既不可解释也不易于编辑。我们建议使用阴影树表示,它结合了基本的着色节点和合成方法来分解对象表面着色。着色树表示使不熟悉物理着色过程的新手用户能够以高效且直观的方式编辑对象着色。推理树的一个主要挑战是推理问题既涉及离散树结构又涉及树节点的连续参数。我们提出了一种混合方法来解决这个问题。我们引入自回归推理模型来生成树结构和节点参数的粗略估计,然后通过优化算法对推断的阴影树进行微调。我们展示了合成图像、捕获的反射率、真实图像和非真实矢量图形的实验,允许下游应用程序,例如材质编辑、矢量化着色和重新照明。项目网站:这个https URL

2.AvatarStudio: Text-driven Editing of 3D Dynamic Human Head Avatars

标题:AvatarStudio:3D 动态人体头部头像的文本驱动编辑

作者:Mohit Mendiratta, Xingang Pan, Mohamed Elgharib, Kartik Teotia, Mallikarjun B R, Ayush Tewari, Vladislav Golyanik, Adam Kortylewski, Christian Theobalt

文章链接:https://arxiv.org/abs/2306.00547

项目代码:https://vcai.mpi-inf.mpg.de/projects/AvatarStudio/

摘要:

捕捉和编辑全头表演可以通过扩展现实和媒体制作等各种应用程序创建虚拟角色。在过去的几年里,人类头像的真实感急剧上升。此类化身可以通过不同的输入数据模式进行控制,包括 RGB、音频、深度、IMU 等。虽然这些数据模式提供了有效的控制手段,但它们主要集中于编辑头部运动,例如面部表情、头部姿势和/或相机视角。在本文中,我们提出了 AvatarStudio,一种基于文本的方法,用于编辑动态全头头像的外观。我们的方法建立在现有工作的基础上,使用神经辐射场(NeRF)捕获人体头部的动态性能,并使用文本到图像扩散模型编辑这种表示。具体来说,我们引入了一种优化策略,用于将代表不同摄像机视点的多个关键帧和视频性能的时间戳合并到单个扩散模型中。使用这种个性化扩散模型,我们通过遵循基于模型的指导方法引入视图和时间感知分数蒸馏采样(VT-SDS)来编辑动态 NeRF。我们的方法在规范空间中编辑整个头部,然后通过预训练的变形网络将这些编辑传播到剩余的时间步。我们通过用户研究对我们的方法进行视觉和数值评估,结果表明我们的方法优于现有方法。我们的实验验证了我们方法的设计选择,并强调我们的编辑是真实的、个性化的,以及 3D 和时间一致的。

Subjects: cs.SD

3.AudioSR: Versatile Audio Super-resolution at Scale

标题:AudioSR:大规模多功能音频超分辨率

作者:Haohe Liu, Ke Chen, Qiao Tian, Wenwu Wang, Mark D. Plumbley

文章链接:https://arxiv.org/abs/2309.07314

项目代码:https://audioldm.github.io/audiosr/

摘要:

音频超分辨率是一项基本任务,可预测低分辨率音频的高频分量,从而提高数字应用中的音频质量。以前的方法存在局限性,例如音频类型(例如音乐、语音)范围有限以及它们可以处理的特定带宽设置(例如 4kHz 到 8kHz)。在本文中,我们介绍了一种基于扩散的生成模型 AudioSR,它能够对多种音频类型(包括音效、音乐和语音)执行强大的音频超分辨率。具体来说,AudioSR可以将2kHz至16kHz带宽范围内的任何输入音频信号上采样为24kHz带宽、采样率为48kHz的高分辨率音频信号。对各种音频超分辨率基准的广泛客观评估证明了所提出的模型取得的强劲结果。此外,我们的主观评估表明,AudioSR 可以作为即插即用模块来提高各种音频生成模型的生成质量,包括 AudioLDM、Fastspeech2 和 MusicGen。我们的代码和演示可在此 https URL 获取。

我正在参与2023腾讯技术创作特训营第二期有奖征文,瓜分万元奖池和键盘手表

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-09-18 09:48,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AiCharm 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档