首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >每日学术速递12.27

每日学术速递12.27

作者头像
AiCharm
发布2023-12-28 14:28:44
发布2023-12-28 14:28:44
3330
举报
文章被收录于专栏:AiCharmAiCharm

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

点击下方卡片,关注「AiCharm」公众号

Subjects: cs.CV

1.StarVector: Generating Scalable Vector Graphics Code from Images

标题:StarVector:从图像生成可扩展矢量图形代码

作者:Juan A. Rodriguez, Shubham Agarwal, Issam H. Laradji, Pau Rodriguez, David Vazquez, Christopher Pal, Marco Pedersoli

文章链接:https://arxiv.org/abs/2312.11556

项目代码:https://github.com/joanrod/star-vector

摘要:

可扩展矢量图形 (SVG) 因其分辨率的无限可扩展性、多功能可用性和编辑功能而成为现代图像渲染应用程序中不可或缺的一部分。SVG 在网页开发和图形设计领域特别受欢迎。使用深度学习进行 SVG 建模的现有方法通常难以生成复杂的 SVG,并且仅限于需要大量处理和简化的简单模型。本文介绍了 StarVector,一种多模式 SVG 生成模型,它有效地集成了代码生成大型语言模型 (CodeLLM) 和视觉模型。我们的方法利用 CLIP 图像编码器从基于像素的图像中提取视觉表示,然后通过适配器模块将其转换为视觉标记。这些视觉标记预先添加到 SVG 标记嵌入中,并且 StarCoder 模型使用下一个标记预测对序列进行建模,从而有效地学习对齐视觉标记和代码标记。这使得 StarVector 能够生成准确表示像素图像的不受限制的 SVG。为了评估 StarVector 的性能,我们推出了 SVG-Bench,这是一个用于跨多个数据集和相关指标评估 SVG 方法的综合基准。在此基准测试中,我们引入了新颖的数据集,包括 SVG-Stack(真实世界 SVG 示例的大型数据集),并使用它来预训练 StarVector 作为 SVG 的大型基础模型。我们的结果表明,与当前方法相比,视觉质量和复杂性处理有了显着增强,标志着 SVG 生成技术的显着进步。

2.GeomVerse: A Systematic Evaluation of Large Models for Geometric Reasoning

标题:GeomVerse:几何推理大型模型的系统评估

作者:Mehran Kazemi, Hamidreza Alvari, Ankit Anand, Jialin Wu, Xi Chen, Radu Soricut

文章链接:https://arxiv.org/abs/2312.12241

摘要:

当输入问题仅为文本时,大型语言模型在多跳数学推理方面显示出令人印象深刻的结果。然而,许多数学推理问题都包含文本和图像。随着视觉语言模型(VLM)的日益普及,了解它们对此类问题的推理能力至关重要。在本文中,我们通过几何问题的视角评估了 VLM 沿各个轴的推理能力。我们按程序创建一个几何问题的综合数据集,其难度水平沿多个轴可控,从而实现系统评估。使用我们最先进的 VLM 基准获得的实证结果表明,这些模型在几何等学科(以及一般而言,需要类似推理的其他主题)方面的能力不如以前的基准所建议的那样。通过在不同深度级别构建我们的基准,这一点尤其明显,因为解决更高深度的问题需要长链推理,而不是额外的记忆知识。我们发布数据集以供该领域的进一步研究。

3.Optimizing Diffusion Noise Can Serve As Universal Motion Priors

标题:优化扩散噪声可以作为通用运动先验

作者:Korrawe Karunratanakul, Konpat Preechakul, Emre Aksan, Thabo Beeler, Supasorn Suwajanakorn, Siyu Tang

文章链接:https://arxiv.org/abs/2312.11994

项目代码:https://korrawe.github.io/dno-project/

摘要:

我们提出了扩散噪声优化(DNO),这是一种新方法,可以有效地利用现有的运动扩散模型作为各种运动相关任务的运动先验。DNO 不是为每个新任务训练特定于任务的扩散模型,而是通过优化现有预训练文本到运动模型的扩散潜在噪声来进行操作。给定人体运动的相应潜在噪声,它通过整个去噪过程传播运动空间上定义的目标标准的梯度,以更新扩散潜在噪声。因此,DNO 支持任何可以将标准定义为运动函数的用例。特别是,我们表明,对于运动编辑和控制,DNO 在实现目标和保留运动内容方面都优于现有方法。DNO 支持多种编辑模式,包括更改轨迹、姿势、关节位置或避开新添加的障碍物。此外,DNO 在运动去噪和补全方面非常有效,可以从噪声和部分输入中产生平滑且真实的运动。DNO 在推理时即可实现这些结果,无需重新训练模型,为运动表示上的任何定义的奖励或损失函数提供了强大的多功能性。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-12-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AiCharm 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档