1.Towards Truly Zero-shot Compositional Visual Reasoning with LLMs as Programmers
标题:以法学硕士作为程序员实现真正的零样本组合视觉推理
作者:Aleksandar Stanić, Sergi Caelles, Michael Tschannen
文章链接:https://arxiv.org/abs/2401.01974
摘要:
视觉推理以端到端神经网络为主,可扩展到数十亿个模型参数和训练示例。然而,即使是最大的模型也在组合推理、泛化、细粒度空间和时间推理以及计数方面遇到困难。原则上,使用大型语言模型 (LLM) 作为控制器的视觉推理可以通过分解任务并通过编排一组(视觉)工具来解决子任务来解决这些限制。最近,这些模型在组合视觉问答、视觉基础和视频时间推理等任务上取得了出色的性能。然而,就目前的形式而言,这些模型严重依赖于提示中上下文示例的人类工程,这些示例通常是特定于数据集和任务的,并且需要高技能程序员的大量工作。在这项工作中,我们提出了一个框架,通过引入空间和时间抽象例程并利用少量标记示例自动生成上下文示例,从而避免人工创建上下文示例,从而缓解这些问题。在许多视觉推理任务中,我们表明我们的框架可以带来持续的性能提升,使作为控制器设置的法学硕士更加稳健,并且消除了对上下文示例进行人体工程的需要。
2.WordArt Designer API: User-Driven Artistic Typography Synthesis with Large Language Models on ModelScope(NeurIPS 2023)
标题:WordArt Designer API:用户驱动的艺术版式合成与 ModelScope 上的大型语言模型
作者:Jun-Yan He, Zhi-Qi Cheng, Chenyang Li, Jingdong Sun, Wangmeng Xiang, Yusen Hu, Xianhui Lin, Xiaoyang Kang, Zengke Jin, Bin Luo, Yifeng Geng, Xuansong Xie, Jingren Zhou
文章链接:https://arxiv.org/abs/2401.01699
摘要:
本文介绍了 WordArt Designer API,这是一种利用 ModelScope 上的大型语言模型 (LLM) 进行用户驱动的艺术排版合成的新颖框架。我们通过提供动态、自适应且计算高效的传统刚性模板替代方案来解决为非专业人士简化艺术排版的挑战。我们的方法利用法学硕士的力量来理解和解释用户输入,促进更直观的设计过程。我们通过各种案例研究展示用户如何表达他们的审美偏好和功能需求,然后系统将其转化为独特且富有创意的版式设计。我们的评估表明,与现有系统相比,用户满意度、设计灵活性和创意表达方面有了显着改善。WordArt Designer API 不仅使版式艺术民主化,还为个性化数字通信和设计开辟了新的可能性。
3.Point2CAD: Reverse Engineering CAD Models from 3D Point Clouds
标题:Point2CAD:根据 3D 点云对 CAD 模型进行逆向工程
作者:Yujia Liu, Anton Obukhov, Jan Dirk Wegner, Konrad Schindler
文章链接:https://arxiv.org/abs/2312.04962
项目代码:https://www.obukhov.ai/point2cad
摘要:
从点云重建计算机辅助设计(CAD)模型是计算机视觉、图形学和机器学习交叉领域的一个重要问题;当设计师在野外对象上进行迭代时,它可以节省大量时间。这一方向的最新进展实现了相对可靠的语义分割,但仍难以生成足够的 CAD 模型拓扑。在这项工作中,我们分析了该不恰当任务的当前技术水平,并找出了现有方法的缺点。我们提出了一种混合分析神经重建方案,该方案弥合了分段点云和结构化 CAD 模型之间的差距,并且可以轻松地与不同的分割主干相结合。此外,为了为表面拟合阶段提供动力,我们提出了一种新颖的自由曲面隐式神经表示,从而提高了整体 CAD 重建方案的性能。我们在流行的 CAD 模型 ABC 基准上广泛评估了我们的方法,并为该数据集设置了新的最先进技术。