文章/答案/技术大牛

发布

PRO | 多模态趋势下，Transformer并非主流架构唯一解

文章来源：企鹅号 - 机器之心

2023年，几乎 AI 的每个领域都在以前所未有的速度进化，同时，AI也在不断地推动着具身智能、自动驾驶等关键赛道的技术边界。

多模态趋势下，Transformer 作为 AI 大模型主流架构的局面是否会撼动？为何探索基于 MoE （专家混合）架构的大模型成为业内新趋势？大型视觉模型（LVM）能否成为通用视觉的新突破？...

我们从过去的半年发布的2023年机器之心PRO会员通讯中，挑选了 10 份针对以上领域技术趋势、产业变革进行深入剖析的专题解读，助您在新的一年里为大展宏图做好准备。

本篇解读来自2023年 Week52 业内通讯

专题解读多模态趋势下，Transformer 并非主流架构唯一解

日期：12 月 24 日

事件：腾讯 AI 实验室与港中文联合团队提出了新 CNN 架构「UniRepLKNet」，在图像识别精度和速度上都超过了 Transformer 架构模型。

要点速览

1、UniRepLKNet 的设计遵循了四条 guideline，包括使用大卷积核来保证大感受野，使用 depthwise 小卷积来提高特征抽象层次，以及使用高效结构来增强模型的深度和表示能力。

2、UniRepLKNet 的每个 block 主要由 depthwise conv、SE Block 和 FFN 三个部分组成。其中 depthwise conv 可以是大卷积核，也可以只是 depthwise 3x3。

3、UniRepLKNet 在多个图像任务上表现出色，包括 ImageNet、COCO 和 ADE20K，其精度和速度都达到了 SOTA 水平。同时，切换到点云、音频、视频等其他模态，也无需改变模型结构，简单预处理即可接近甚至超越 SOTA。

UniRepLKNet-XL 的 ImageNet 精度达到 88%，而且实际速度是 DeiT III-L 的三倍；

在 COCO 目标检测任务上，UniRepLKNet-L 不及 InternImage-L，但是 UniRepLKnet-XL 超过了 InternImage-XL。

在 ADE20K 语义分割上，UniRepLKNet 的优势相当显著，最高达到 55.6 的 mIoU。与 ConvNeXt-XL 相比超出了整整 1.6。

4、此外，为了验证 UniRepLKNet 处理时序数据的能力，该工作还挑战了一个数据规模超大的《Nature》级别的任务：全球气温和风速预测。实验结果显示，UniRepLKNet 在时序预测任务上超越了基于 Transformer 的前 SOTA 模型。

5、研究者认为，「CNN 在大一统这一点上可能不弱于 Transformer」。Transformer 和 CNN 仅仅是相互交融的两种结构设计思路，没有理由认为前者具有本质的优越性。在该项工作上，证明了 CNN 在点云、音频、视频方面的优势。

CNN VS.Transformer，做多模态谁更强？

1、一直以来，Transformer 都被认作为 AI 大模型的主流架构。但在近期的一些研究工作中，RWKV、Mamba、Hyena，以及 Recurrent Memory Transformers 等新的架构出现，也许「最先进的模型仍然是基于 Transformer 」的局面未来可能会改变。

2、腾讯 AI 实验室与港中文联合团队提出的这项新 CNN 架构「UniRepLKNet」，在图像识别精度和速度上均超过了 Transformer 架构模型。作者认为，Transformer 和 CNN 仅仅是相互交融的两种结构设计思路，没有理由认为前者具有本质的优越性。

3、此前，CNN 长期以来一直是图像处理任务的首选。

CNN 擅长通过卷积层捕获局部空间信息，从而实现分层特征提取。CNN 擅长从大量图像数据中学习，并在图像分类、目标检测和分割等任务中效果显著。

CNN 由于其可并行性而具有更高计算效率，这使得它们适用于需要实时运行和资源受限的应用程序。

2、在多模态学习中，Transformer 的输入可以包含一个或多个 token 序列，每个序列的属性（例如，模态标签、顺序）可以自然地进行 MML 而无需架构修改。此外，通过控制 self-attention 的输入模态可以简单地实现学习每个模态的特异性和模态间的相关性。

Transformer 的优势在于它们可以以与模态无关的方式工作。因此，它们与各种模态（和模态的组合）兼容。

相较于 CNN， Vision Transformer 拥有全局注意力和上下文理解等至关重要的优势。

但 Vision Transformer 通常需要大量的训练数据才能达到与 CNN 相当的性能。

3、目前，大多数先进的模型都是以 CNN-Transformer 混合体的形式设计的。这些模型主要在初期阶段使用卷积块，并将 Transformer 块的堆叠保留到最后阶段。目前，无论是卷积块还是 Transformer 块，在现有工作中都不能同时实现高效性和性能。

基于 Transformer 的多模态模型又有哪些局限性？

1、融合困难

一般来说，MML Transformers 主要在三个常规级别融合多种模态的信息：输入（即早期融合）、中间表示（即中间融合）和预测（即晚期融合）。将两种模态的表示直接输入标准注意力模块可以实现中间融合和潜在适应，最终得到最终双模态表示的后期融合。

选择合适的融合方法（早期、晚期或中间融合）是实现高效多模态学习的关键难点。

2、对齐挑战

现实世界的数据通常以多种具有内在同步的模态出现（例如，视听对应），这支持了跨模态对齐。最近，基于 Transformers 的对齐导致利用大量网络数据（例如，图像-文本对）进行视觉和语言任务的激增。主要思想是将两种模态映射到一个共同的表示空间中，并在配对样本上进行对比学习。

跨模态对齐是许多实际应用程序的关键因素，这要求模型能够理解和处理来自不同源的数据之间的复杂相互关系，确保数据间的有效协同。

3、可迁移性难题

发表于: 2024-02-182024-02-18 12:13:29
原文链接：https://page.om.qq.com/page/OGBxOFu6_ILk5o5rJzOTcPPQ0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

PRO | 多模态趋势下，Transformer并非主流架构唯一解

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐