大型语言模型 (LLM) 的进步对自然语言处理产生了深远的影响,但尚未完全拥抱3D理解领域。为此本文提出了PointLLM,让LLMs学会理解点云信息并提供超越2D视觉数据的新途径。具体来说,PointLLM能够根据Prompt处理彩色点云信息,利用LLM的点云编码器来有效融合几何、外观和语言信息,生成符合任务目标的响应。实验结果表明:PointLLM 表现出优于现有2D基线的性能,在对象标注任务中,PointLLM在超过50%的样本中优于人工注释者。
Paper:https://arxiv.org/pdf/2308.16911v1.pdf
Code:https://github.com/OpenRobotLab/PointLLM
近年来,大型语言模型(LLM)在自然语言处理方面展现出了惊人的能力。这些模型已成为多功能工具,可以充当通用接口来执行一系列复杂任务。然而,在文本任务上的应用只是大语言模型(LLMs)应用众多应用场景中的一个。随着研究人员开始探索多模态LLMs,它能够处理各种形式的数据,例如音频、图像等。
对于图像处理方向来说,我们希望LLMs能够理解3D结构。比如,人们可以通过简单的口头命令来创建和编辑3D内容,而无需专门的软件,或者可以指示机器人使用自然语言操纵对象。就像钢铁侠电影场景中,托尼在制造钯替代元素的时候,对城市模型进行建模。这些应用程序需要LLMs对3D结构有细致而准确的理解。
虽然人们正在逐步开始将LLM与2D图像结合起来试图实现对3D的理解,但是他们面临着模糊深度估计、遮挡、视点相关性等问题。为了解决这些问题,可以选择合适的试图或者采用多视角试图。然而,由于对象方向不确定,合适的视图可能难以捕获,并且多视图图像可能导致模型复杂性增加。另一方面,点云作为3D的通用且高效的表示形式,提供了非常好的解决方案。它们提供对几何和外观的直接访问,促进对3D形状、弹性遮挡处理和视图不变分析的全面理解。然而,尽管有其优点,点云与LLMs的耦合仍未得到充分探索。
基于以上背景,本文主要的工作是将大型语言模型应用在点云理解上,旨在实现LLMs在3D对象上的应用。提出了PointLLM,其模型效果如下图所示:
如上图:PointLLM是一种能够理解物体的彩色点云的多模态大语言模型。它能够感知对象类型、几何结构和外观,而无需考虑模糊的深度、遮挡或视点依赖性。通过这种理解和现有的先验知识,PointLLM 可以准确地响应用户指令,正如它在这些看不见的样本上的表现所证明的那样。
然而,构建能够理解物体点云的多模态大模型,存在三个特别关键的问题:1)缺乏模型训练数据;2)构建合适的模型架构;3)缺乏全面的评估标准和方法。针对以上问题,本文作者对此做了一一解答:
「首先,数据采集」 作者收集了一个大规模的点云文本指令数据集,其中包含针对660K目标点云的660K简要描述指令,以及针对15K目标点云的70K复杂指令。在处理对象点云的背景下,引导模型从点云中提取有意义的表示并响应用户指令的训练数据尤其罕见,并且手动收集可能既耗时又昂贵。为了解决这个问题,作者利用最近推出的 Cap3D,这是一个基于Objaverse构建的大规模3D对象字幕数据集。利用GPT-4的推理能力,引导GPT-4根据字幕提供的上下文生成各种指令跟踪数据。
「然后,模型和训练」 作者引入了PointLLM,它采用预训练的点云编码器将点云编码为Token,从输入点云中提取特征并,并将其映射到LLM模型的潜在空间中。LLM模型处理点云Token和文本Token序列,并生成预测的令牌作为输出。该模型使用交叉熵损失进行训练,该交叉熵损失仅在与模型响应对应的令牌上计算。模型架构如下图所示:
对于PointLLM模型训练采用两阶段策略:点云编码器和大语言模型之间的潜在空间进行初始对齐,然后对统一模型进行指令调整。这种方法确保了3D点云的几何和外观信息与语言模型的语言功能的有效融合。
「最后,基准和评估」 作者建立了两个不同的基准:生成3D对象分类和3D对象描述,并配有多样化的评估框架,以评估模型对点云的理解。由于模型输出的生成性质,以生成方式格式化分类任务,其中提示模型直接输出对象类型。PointLLM模型通过ModelNet40上的闭集零样本分类、Objaverse上的开放词汇分类和基于Objaverse的标注来进行对象分类。由于为生成任务定义单一评估指标很困难,作者采用三种评估方法,包括人工评估、GPT-4/ChatGPT评估和传统指标评估来严格评估模型的感知和泛化能力。
1、对于不同类型的模型和数据集,展示了模型分类的准确性。可以发现PointLLM表现出优于现有2D基线的性能。
2、对于3D对象说明结果的评估。主要使用人工评估、GPT-4评估和传统指标对模型进行评估。主要关注的是人类和GPT-4评估,以及数据驱动的指标(句子- bert和SimCSE),因为传统的测量方法,如BLEU、ROUGE-L和METEOR可能无法充分捕获生成标题的语义丰富性和多样性。
3、PointLLM、人工标注和InstructBLIP之间的比较。PointLLM 在超过一半的测试样本中优于人类标注,并且相比InstructBLIP模型表现出巨大的优势。