前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >每日学术速递12.30

每日学术速递12.30

作者头像
AiCharm
发布2024-01-04 12:17:50
1260
发布2024-01-04 12:17:50
举报
文章被收录于专栏:AiCharm

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

点击下方卡片,关注「AiCharm」公众号

Subjects: cs.CV

1.PIA: Your Personalized Image Animator via Plug-and-Play Modules in Text-to-Image Models

标题:PIA:通过文本到图像模型中的即插即用模块实现您的个性化图像动画师

作者:Yiming Zhang, Zhening Xing, Yanhong Zeng, Youqing Fang, Kai Chen

文章链接:https://arxiv.org/abs/2312.13964

项目代码:https://pi-animator.github.io/

摘要:

个性化文本到图像 (T2I) 模型的最新进展彻底改变了内容创建,使非专家能够生成具有独特风格的令人惊叹的图像。虽然前景光明,但通过文本将逼真的动作添加到这些个性化图像中,在保留独特的风格、高保真细节和通过文本实现动作可控性方面提出了重大挑战。在本文中,我们介绍了 PIA,一种个性化图像动画器,它擅长与条件图像对齐、通过文本实现运动可控性以及与各种个性化 T2I 模型的兼容性,而无需进行特定调整。为了实现这些目标,PIA 基于具有经过良好训练的时间对齐层的基本 T2I 模型构建,允许将任何个性化 T2I 模型无缝转换为图像动画模型。PIA 的一个关键组成部分是引入条件模块,该模块利用条件帧和帧间亲和力作为输入,传输由亲和力提示引导的外观信息,用于潜在空间中的各个帧合成。这种设计减轻了内部与外观相关的图像对齐的挑战,并允许更加关注与运动相关的指导对齐。

2.AppAgent: Multimodal Agents as Smartphone Users

标题:AppAgent:作为智能手机用户的多模式代理

作者:Zhao Yang, Jiaxuan Liu, Yucheng Han, Xin Chen, Zebiao Huang, Bin Fu, Gang Yu

文章链接:https://arxiv.org/abs/2312.13771

项目链接:https://appagent-official.github.io/

摘要:

大型语言模型 (LLM) 的最新进展催生了能够执行复杂任务的智能代理。本文介绍了一种新颖的基于 LLM 的多模式代理框架,旨在操作智能手机应用程序。我们的框架使代理能够通过简化的动作空间来操作智能手机应用程序,模仿类人交互,例如点击和滑动。这种新颖的方法绕过了对系统后端访问的需求,从而扩大了其在不同应用程序中的适用性。我们代理功能的核心是其创新的学习方法。代理通过自主探索或观察人类演示来学习导航和使用新应用程序。此过程生成一个知识库,代理可以参考该知识库来跨不同应用程序执行复杂的任务。为了证明我们的代理的实用性,我们在 10 种不同的应用程序中进行了 50 多项任务的广泛测试,包括社交媒体、电子邮件、地图、购物和复杂的图像编辑工具。结果证实了我们的代理在处理各种高级别任务方面的熟练程度。

3.PolyDiff: Generating 3D Polygonal Meshes with Diffusion Models

标题:PolyDiff:使用扩散模型生成 3D 多边形网格

作者:Antonio Alliegro, Yawar Siddiqui, Tatiana Tommasi, Matthias Nießner

文章链接:https://arxiv.org/abs/2312.11417

摘要:

我们引入了 PolyDiff,这是第一个基于扩散的方法,能够直接生成真实且多样化的 3D 多边形网格。与使用替代 3D 形状表示(例如隐式表示)的方法相比,我们的方法是在多边形网格数据结构上本地运行的离散去噪扩散概率模型。这使得能够学习顶点的几何特性和面的拓扑特征。具体来说,我们将网格视为量化的三角形汤,在前向扩散阶段逐渐被分类噪声破坏。在反向扩散阶段,训练基于变压器的去噪网络来恢复噪声过程,恢复原始的网格结构。在推理时,可以通过迭代应用此去噪网络来生成新的网格,从完全嘈杂的三角形汤开始。因此,我们的模型能够生成高质量的 3D 多边形网格,准备好集成到下游 3D 工作流程中。我们广泛的实验分析表明,与当前最先进的方法相比,PolyDiff 具有显着优势(平均 FID 和 JSD 分别提高了 18.2 和 5.8)。

喜欢的话,请给我个在看吧!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-12-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AiCharm 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档