Meta最新成果：多模态AI大模型AnyMAL

文章来源：企鹅号 - AI变革指南

你有没有想过，如果有一种语言模型，能够同时处理文本、图像、视频、音频、运动传感器等多种模态的信号，那么它会有多么强大和实用呢？

例如，你可以用语音问它一个问题，它可以从视频中找到答案并用文字回复你；或者你可以给它一张图片，它可以用诗歌来描述它；或者你可以让它根据运动传感器的数据来判断你的健康状况并给出建议。

Meta 的研究人员近日推出了 AnyMAL（Any-Modality Augmented Language Model）。一种能够理解多种模态信号并生成文本回应的强大语言模型（包括图像、视频、音频和 IMU 运动传感器数据））。

AnyMAL是由Moon等人在2023年9月发表在arXiv上的一篇论文中提出的（地址见末尾），它继承了目前最先进的文本语言模型LLaMA-2（70B）的强大的文本推理能力，并通过一个预训练的对齐模块，将不同模态的信号转换为统一的文本空间。

为了进一步增强多模态语言模型的能力，他们还用一个手工收集的多模态指令集对模型进行了微调，覆盖了各种主题和任务，不仅仅是简单的问答。他们进行了全面的实验分析，包括人类和自动评估，并展示了在各种多模态任务上的最先进性能。

AnyMAL是如何工作的呢？

AnyMAL主要由两个部分组成：一个是基于LLaMA-2（70B）3的语言模型（LM），另一个是基于Vision Transformer（ViT）和WaveNet等技术的对齐模块（AM）。LM负责处理文本输入和输出，而AM负责将其他模态的信号转换为文本表示，并与LM进行交互。

作者使用了人类评估和自动评估两种方法来比较AnyMAL和其他基准模型的表现。人类评估是通过让一些专业的评估员对不同模型生成的回应进行打分，考察它们的准确性、流畅性、相关性和创造性等方面。

自动评估是通过使用一些常用的指标，如BLEU、ROUGE、METEOR等，来量化不同模型生成的回应和参考答案之间的相似度。实验结果表明，AnyMAL在所有任务上都优于其他基准模型，并且在一些任务上达到了接近人类水平的性能。

总之，AnyMAL是一种能够理解多种模态信号并生成文本回应的强大语言模型，它继承了LLaMA-2（70B）的强大的文本推理能力，并通过一个预训练的对齐模块，将不同模态的信号转换为统一的文本空间。它在多个多模态任务上展示了最先进的性能，并且具有很高的实用价值。

论文地址：

https://huggingface.co/papers/2309.16058

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货