前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >每日学术速递11.24

每日学术速递11.24

作者头像
AiCharm
发布2023-11-24 14:27:34
2120
发布2023-11-24 14:27:34
举报
文章被收录于专栏:AiCharmAiCharm

点击上方蓝字关注我们

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

点击下方卡片,关注「AiCharm」公众号

Subjects: cs.CV

1.Concept Sliders: LoRA Adaptors for Precise Control in Diffusion Models

标题:概念滑块:用于扩散模型中精确控制的 LoRA 适配器

作者:Rohit Gandikota, Joanna Materzynska, Tingrui Zhou, Antonio Torralba, David Bauo

文章链接:https://arxiv.org/abs/2311.12092

项目代码:https://sliders.baulab.info/

摘要:

我们提出了一种创建可解释概念滑块的方法,可以精确控制扩散模型生成图像中的属性。我们的方法识别与一个概念相对应的低秩参数方向,同时最大限度地减少对其他属性的干扰。滑块是使用一小组提示或示例图像创建的;因此,可以为文本或视觉概念创建滑块方向。概念滑块是即插即用的:它们可以有效地组合并连续调制,从而能够精确控制图像生成。在定量实验中,与以前的编辑技术相比,我们的滑块表现出更强的针对性编辑和更低的干扰。我们展示了天气、年龄、风格和表达的滑块,以及滑块的组成。我们展示了滑块如何从 StyleGAN 传输潜在变量,以直观地编辑文本描述困难的视觉概念。我们还发现,我们的方法可以帮助解决 Stable Diffusion XL 中持续存在的质量问题,包括修复对象变形和修复扭曲的手。

2.GPT-4V(ision) for Robotics: Multimodal Task Planning from Human Demonstration

标题:用于机器人技术的 GPT-4V(ision):来自人体演示的多模式任务规划

作者:Naoki Wake, Atsushi Kanehira, Kazuhiro Sasabuchi, Jun Takamatsu, Katsushi Ikeuchi

文章链接:https://arxiv.org/abs/2311.12015

项目代码:https://microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts/

摘要:

我们引入了一个管道,通过整合对人类行为的观察来促进机器人操作,从而增强通用视觉语言模型 GPT-4V(ision)。该系统分析人类执行任务的视频,并创建包含可供性见解的可执行机器人程序。计算首先使用 GPT-4V 分析视频,将环境和动作细节转换为文本,然后是 GPT-4 授权的任务规划器。在下面的分析中,视觉系统根据任务计划重新分析视频。对象名称是使用开放词汇对象检测器来确定的,而关注手与对象的关系有助于检测抓取和释放的时刻。这种时空基础允许视觉系统进一步收集可供性数据(例如,抓握类型、路径点和身体姿势)。各种场景的实验证明了该方法能够以零样本的方式从人类演示中实现真实的机器人操作。

3.Memory Augmented Language Models through Mixture of Word Experts

标题:通过单词专家的混合记忆增强语言模型

作者:Cicero Nogueira dos Santos, James Lee-Thorp, Isaac Noble, Chung-Ching Chang, David Uthus

文章链接:https://arxiv.org/abs/2311.10768

摘要:

事实证明,增加语言模型的参数数量是提高性能的有效方法。对于密集模型,增加模型大小会成比例地增加模型的计算占用量。在这项工作中,我们寻求通过专家混合(MoE)风格的模型与基于大量知识丰富的词汇的路由函数和专家来积极地解耦学习能力和失败。我们提出的方法被称为单词专家混合(MoWE),可以被视为一种记忆增强模型,其中大量特定于单词的专家扮演稀疏记忆的角色。我们证明,在各种 NLP 任务中,MoWE 的表现明显优于具有相似 FLOP 数量的 T5 系列模型。此外,MoWE 在知识密集型任务上的性能优于常规 MoE 模型,并且与更复杂的内存增强方法具有相似的性能,这些方法通常需要调用自定义机制来搜索稀疏内存。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-11-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AiCharm 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档