解读:AI生成未来

论文链接:https://arxiv.org/pdf/2512.04810 项目链接:https://emma-umm.github.io/emma/
当前多模态大模型已经成为大模型领域最为重要的研究热点,尤其是随着OpenAI的GPT-4O展现出极强的多模交互生成能力,以及谷歌GEMINI依靠原生多模架构打了一场漂亮的大模型翻身仗,如何构建多模态统一架构已经成为2025年多模态大模型领域最为关心的课题。
尽管构建多模态统一架构已经成为了业界几乎所有大模型研究者的共识,但是如何构建多模态统一架构的路线目前仍然未收敛,比如1)直接利用开源的理解或生成专家模型然后中间设计桥接器来构建多模交互能力,典型代表工作比如UniWorldV1, Metaquery, OminiGen2等; 2)架构统一并进行端到端原生训练以激发多模能力,但其理解与生成任务优化目标不同。代表工作如字节的BAGEL,Mogao以及Deepseek的JanusFlow 3) 追求完美统一,优化目标一致,比如EMU系列和D-DiT。但无论哪种路线,围绕大家心中最为关键的一个问题就是,多模态统一架构所训练激发的能力到底能不能超过单独的多模态理解或者多模态生成模型,从而证明多模态统一架构所具备的优势?华为近期发布的高效多模态统一架构EMMA就给出了相关答案,是可以的!
我们先来看结果,一句话总结:EMMA以4B MOE规模的大小在多模态理解、生成、编辑等榜单上力压当前各种7B大小的统一架构模型,远超BAGEL

再来看看与单独的专家模型对比。比如在多模态理解常常测评的11个榜单上,EMMA-4B模型要比Qwen3-VL-4B取得更好的结果。

同时,在图像生成GenEval榜单上EMMA也获得了超高的分数。

我们来看看EMMA到底通过什么方案来取得这么好的效果呢? 核心方案:
其整体架构图和训练细节如下。 基于上述方案,EMMA在满足高效的同时(例如编辑任务降低5倍视觉token)达到SOTA性能,相较于BAGEL7B有大幅提升。同时相较于Qwen3-VL-4B进行了对比在11个理解榜单取得了相当甚至更优的结果


最后我们再来看一些具体的可视化结果


是不是EMMA的生成能力相当能打?
EMMA通过高效的编码器设计融合策略和网络结构语义共享及高层任务解耦机制,能够高效地完成原生多模态统一架构训练,最终配合上高质量的数据工程和训练方案EMMA能够在多模态理解、生成及编辑等榜单上大幅超过BAGEL。相较于理解SOTA模型Qwen3-VL-4B以及Qwen-Image也能展现出具备竞争力的结果。EMMA进一步揭示了原生多模态统一架构的潜力,也证明了原生多模态统一架构是能够超越专有模型的,为后续多模态统一架构研究奠定坚实的基础。
[1] EMMA: Efficient Multimodal Understanding, Generation, and Editing with a Unified Architecture
技术交流社区免费开放
这是一个高质量AIGC技术社群。
涉及 内容生成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!