再见嵌入模型？META提出GEM，用一个大模型搞定生成与理解

AgenticAI

发布于 2025-06-12 14:06:05

2090

文章被收录于专栏：AgenticAIAgenticAI

在当下诸如 RAG 等应用系统中，“生成”与“理解”常由两个不同模型完成。一个用于文本生成的解码式语言模型（如 GPT），另一个用于语义匹配的嵌入模型（如 OpenAI Embedding、BGE 等）。虽然这种组合取得了不错的效果，但也带来了一些长期痛点：

系统结构复杂，部署成本高；
不同模型对语义的理解不一致，影响下游性能；
嵌入模型常需额外训练或调用第三方服务。

近日，来自 Meta 的研究者提出了一种新方法——GEM（Generative Embedding Model），旨在让一个解码式语言模型在保持语言生成能力的同时，具备高质量语义嵌入生成能力，实现“统一模型，双重能力”。

本文将系统解读这篇论文《GEM: Empowering LLM for both Embedding Generation and Language Understanding》（arXiv:2506.04344）[1]，分析其核心机制、实验验证与未来潜力。

研究动机

目前，大多数嵌入模型为专门训练的双塔结构（如 BERT-based 模型），而主流 LLM（如 LLaMA、GPT）为解码式结构。两者设计目标不同，使得它们对语义的理解存在偏差。

GEM 提出的根本问题是：

能否直接让 LLM 自身学习生成高质量的嵌入，从而兼顾生成与理解？

如果实现，那么在检索增强生成、问答系统、语义搜索等多个任务中，只需部署一个模型即可完成全文理解与回答生成，系统更轻量，部署更简单，语义一致性更好。

方法概述

GEM 的核心机制是：在输入文本中插入一个或多个特殊的 [EMB] token，并通过设计注意力掩码，引导模型将语义信息聚合到这些 token 上。训练过程中，模型被迫在不访问上下文原文的情况下，仅使用 [EMB] token 来完成文本生成，从而使其学习到高效的语义压缩能力。

image-20250611230005138

具体而言：

特殊 token 设计：在输入文本前插入 [EMB] token，该 token 是用于聚合语义的“嵌入槽位”。
注意力机制控制：训练时，掩蔽掉 [EMB] token 到其他 [EMB] token 的注意力通路，确保每个 token 只从上下文中独立聚合语义。
自监督训练目标：整体训练过程与原始 LLM 任务保持一致，无需新标注，仅需微调或训练。

训练完成后，这些 [EMB] token 的隐藏表示即可作为文本嵌入向量，用于向量检索、语义匹配等任务。

image-20250611230035754

实验设计与结果分析

论文在多个语义嵌入评估任务（如 MTEB 基准）上，对 GEM 的嵌入能力进行了系统评估，并与现有主流嵌入模型如 E5、BGE 进行了比较。

嵌入质量显著提升：GEM 在检索、聚类、文本分类等任务上，均优于常规嵌入模型，尤其在无监督场景下优势明显。
语言生成能力保持：在生成评估任务（如 SQuAD、GSM8K）上，GEM 在插入 [EMB] token 后生成质量几乎无损，说明其语义聚合过程并未干扰语言建模能力。
消融实验结果：实验评估了不同 [EMB] token 数量、注意力布局策略等对性能的影响，验证了设计机制的鲁棒性与可扩展性。

MMLU左侧为MTEB展开的各项评测

可以看到，其在 MTEB 上提升明显甚至有翻倍的提升，而在 MMLU 上似乎略有下降。

方法贡献与潜在价值

GEM 提供了一种高效的范式，在无需引入额外监督信号的前提下，让解码式语言模型自带高质量语义嵌入能力，具有如下几点关键价值：

统一模型结构：避免双模型系统，简化部署流程，提升一致性。
解码式架构兼容：无需引入编码器分支，适用于 LLaMA、Mistral 等主流模型。
自监督训练高效：仅需微调，训练目标与原始模型一致，无需人工标签或辅助任务。
灵活嵌入粒度控制：可通过设置多个 [EMB] token 控制语义压缩分辨率。
经济高效：只用了32000行训练数据。

局限与展望

虽然 GEM 展现了令人信服的效果，但仍存在一些问题与未来方向：

长文本建模能力：对特别长的文本，少量 [EMB] token 能否承载足够语义信息尚待验证。
训练资源要求：虽然无需标签，但修改注意力掩码需要对模型训练管线有深入改动，迁移成本仍在。
多模态扩展性：目前方法集中于文本语义，未来是否可扩展到图文或代码等多模态场景，值得进一步探索。

总结

GEM 提出了一种让解码式语言模型内生高质量嵌入能力的新范式，具有理论简洁性与实践高效性的双重优势。它不仅挑战了“嵌入必须由专用模型生成”的传统认知，也为构建更简洁、高效的一体化语义系统提供了可能。随着 LLM 向通用智能加速演进，像 GEM 这样的统一型机制将为下一代智能系统的设计带来重要启示。

如需深入阅读，推荐查阅原文：arXiv:2506.04344[2]

AgenticAI

介绍大语言模型的最新发展并深入剖析LLM Agent框架和应用

136篇原创内容

公众号

参考资料

[1]

《GEM: Empowering LLM for both Embedding Generation and Language Understanding》（arXiv:2506.04344）: https://arxiv.org/pdf/2506.04344

[2]

arXiv:2506.04344: https://arxiv.org/pdf/2506.04344

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-06-11，如有侵权请联系 cloudcommunity@tencent.com 删除

模型

设计

系统