前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >MM2023 | 3D和图文模态的碰撞,多视角多模态的统一表征

MM2023 | 3D和图文模态的碰撞,多视角多模态的统一表征

作者头像
CV君
发布2023-08-31 10:26:47
4170
发布2023-08-31 10:26:47
举报
文章被收录于专栏:我爱计算机视觉

本篇文章介绍 ACM MM 2023 论文Beyond First Impressions: Integrating Joint Multi-modal Cues for Comprehensive 3D Representation,3D和图文模态的碰撞,多视角多模态的统一表征。

具体信息如下:

  • 论文地址:https://arxiv.org/abs/2308.02982
  • 代码地址:https://github.com/Mr-Neko/JM3D

1. 动机

现有的3D领域受限于数据集的规模和数据标注模式,3D相关的预训练工作一直难有大的突破。之前的部分工作借助于大规模的图文数据及图文预训练模型,尝试将3D表征和图片、文本表征统一。然而这类方法存在两个最主要的缺陷:

  1. 之前的方法忽略了多角度图片带来的信息增益,同时文本构成简单单一,这使得3D模型的表征能力并没有充分的发挥出来
  2. 之前方法选择将3D表征分别独立与图片与文本表征对齐,简化了图片和文本特征的潜在对齐,导致了优化困难的问题

出于此,我们提出了JM3D(Joint Multimodal 3D),包括了SMO(Structured Multimodal Organizer)与JMA(Joint Multi-modal Alignment)分别解决对应的问题。JM3D在不引入额外结构和设计的情况下,适用于任何3D表征的backbone,并可有效提高任意backbone的表征效果。

图1 JM3D的过程,红线表示独立对齐,绿线表示JMA修正过的对齐方式

图2 JM3D的整体框架,SMO构建多角度图片和层次化文本,JMA则完成联合模态的对比学习

2. 方法

Framework

JM3D本质上是一种提升任意点云表征的预训练框架,由一对预训练过的图文大模型和一个任意的3D backbone组成。在训练过程中,框架分别提取对应模态的表征,并通过一个对比学习任务和一个聚类任务拉近三个模态表征之间的距离。

SMO(Structured Multimodal Organizer)

SMO是一种新的数据组织方式。我们分别为视觉和语言模态设计了不同的组织方式。对于视觉模态而言,我们为每个3D素材渲染了30个视角的图片,并设计了一种临近连续采样方式去采样不同视角的图片。这种方式保证所有图片的视角在一定范围内,因此视觉特征具有连续的特点。

\left[I_{1}, \cdots, I_{v}\right] = WS(C_I), |\angle I_i-\angle I_j|<\omega, \forall i, j \in [1, v].

而对于文本特征,我们构建了一种树形的组织结构。对于每个3D模型而言,我们为其分配了一个大类文本和更细致的小类文本。在文本之前拼接上一段固定的prompt形成了这个3D模型的层次化描述。因此,最后我们构建出了如下所示的三元组数据结构:

S_i:\left(\left[I_{i1}, \cdots, I_{iv}\right], \left[T_{i}^p, T_{i}^s\right], C_i\right).

JMA(Joint Multi-modal Alignment)

本质上,表征学习的本质是希望获得相同实例对于不同模态的概率分布,也就是:

P(C, I, T)=P(C|I, T) \cdot P(I, T).

之前的方法认为视觉和文本互相独立,因此上式被简化为了

P(C, I, T)=P(C|I) \cdot P(C|T) \cdot P(I, T).

因此,在实验中,之前的方法会将3D表征分别与图片表征及文本表征独立做对比学习进行对齐。然而,视觉模态和语言模态应当存在一定的隐关系,这个隐关系是可以通过图文的表征获得的。因此,我们在JMA中对该公式重新进行了推导,获得了如下的形式:

P(C|I, T)=\frac{P(C, I|T)}{P(I|T)}=\frac{P(C, I|T)P(T)}{P(I|T)P(T)}=\frac{P(C, I|T)P(T)}{P(I, T)} \\ \propto \sum_{i}P(C, I|T_{i})P(T_{i})=\sum_{i}\sum_{j}P(C, I_{i, j}|T_{i})P(T_{i}).

JMA通过这种形式,完成了联合模态的建模,从而提升了模型的效果。

3.实验

我们在3D分类、3D分割、3D召回等任务上进行了大量的实验,这些实验表明我们的方法可以有效提高各种backbone的表征效果。在ModelNet40和ScanObjectNN下的3D分类实验,更多的实验可以参照原文:

对于SMO和JMA的消融实验:

SMO

JMA

图片召回3D模型

4. 总结

我们提出了JM3D,这是一个全面的预训练框架,采用SMO和JMA,能够无缝地将语言、图像和点云特征整合到一个统一的语义空间中,而无需任何专门的设计。通过精心组织数据,SMO模块充分利用了每种模态的信息,而JMA模块则通过联合建模来优化模态对齐。消融研究验证了所提出的SMO和JMA的有效性。此外,JM3D在零样本3D分类和图像检索任务中表现出卓越的性能,创造了新的最先进水平,突显了其出色的跨模态能力。未来,我们将探索不同的数据和替代的联合建模方法,进一步拓展3D的统一表示学习。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-08-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 我爱计算机视觉 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 动机
  • 2. 方法
    • Framework
      • SMO(Structured Multimodal Organizer)
        • JMA(Joint Multi-modal Alignment)
        • 3.实验
        • 4. 总结
        相关产品与服务
        联邦学习
        联邦学习(Federated Learning,FELE)是一种打破数据孤岛、释放 AI 应用潜能的分布式机器学习技术,能够让联邦学习各参与方在不披露底层数据和底层数据加密(混淆)形态的前提下,通过交换加密的机器学习中间结果实现联合建模。该产品兼顾AI应用与隐私保护,开放合作,协同性高,充分释放大数据生产力,广泛适用于金融、消费互联网等行业的业务创新场景。
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档