
在当下诸如 RAG 等应用系统中,“生成”与“理解”常由两个不同模型完成。一个用于文本生成的解码式语言模型(如 GPT),另一个用于语义匹配的嵌入模型(如 OpenAI Embedding、BGE 等)。虽然这种组合取得了不错的效果,但也带来了一些长期痛点:
近日,来自 Meta 的研究者提出了一种新方法——GEM(Generative Embedding Model),旨在让一个解码式语言模型在保持语言生成能力的同时,具备高质量语义嵌入生成能力,实现“统一模型,双重能力”。
本文将系统解读这篇论文《GEM: Empowering LLM for both Embedding Generation and Language Understanding》(arXiv:2506.04344)[1],分析其核心机制、实验验证与未来潜力。
目前,大多数嵌入模型为专门训练的双塔结构(如 BERT-based 模型),而主流 LLM(如 LLaMA、GPT)为解码式结构。两者设计目标不同,使得它们对语义的理解存在偏差。
GEM 提出的根本问题是:
能否直接让 LLM 自身学习生成高质量的嵌入,从而兼顾生成与理解?
如果实现,那么在检索增强生成、问答系统、语义搜索等多个任务中,只需部署一个模型即可完成全文理解与回答生成,系统更轻量,部署更简单,语义一致性更好。
GEM 的核心机制是:在输入文本中插入一个或多个特殊的 [EMB] token,并通过设计注意力掩码,引导模型将语义信息聚合到这些 token 上。训练过程中,模型被迫在不访问上下文原文的情况下,仅使用 [EMB] token 来完成文本生成,从而使其学习到高效的语义压缩能力。
image-20250611230005138
具体而言:
[EMB] token,该 token 是用于聚合语义的“嵌入槽位”。[EMB] token 到其他 [EMB] token 的注意力通路,确保每个 token 只从上下文中独立聚合语义。训练完成后,这些 [EMB] token 的隐藏表示即可作为文本嵌入向量,用于向量检索、语义匹配等任务。
image-20250611230035754
论文在多个语义嵌入评估任务(如 MTEB 基准)上,对 GEM 的嵌入能力进行了系统评估,并与现有主流嵌入模型如 E5、BGE 进行了比较。
[EMB] token 后生成质量几乎无损,说明其语义聚合过程并未干扰语言建模能力。[EMB] token 数量、注意力布局策略等对性能的影响,验证了设计机制的鲁棒性与可扩展性。MMLU左侧为MTEB展开的各项评测
可以看到,其在 MTEB 上提升明显甚至有翻倍的提升,而在 MMLU 上似乎略有下降。
GEM 提供了一种高效的范式,在无需引入额外监督信号的前提下,让解码式语言模型自带高质量语义嵌入能力,具有如下几点关键价值:
[EMB] token 控制语义压缩分辨率。32000行训练数据。虽然 GEM 展现了令人信服的效果,但仍存在一些问题与未来方向:
[EMB] token 能否承载足够语义信息尚待验证。GEM 提出了一种让解码式语言模型内生高质量嵌入能力的新范式,具有理论简洁性与实践高效性的双重优势。它不仅挑战了“嵌入必须由专用模型生成”的传统认知,也为构建更简洁、高效的一体化语义系统提供了可能。随着 LLM 向通用智能加速演进,像 GEM 这样的统一型机制将为下一代智能系统的设计带来重要启示。
如需深入阅读,推荐查阅原文:arXiv:2506.04344[2]
AgenticAI
介绍大语言模型的最新发展并深入剖析LLM Agent框架和应用
136篇原创内容
公众号
[1]
《GEM: Empowering LLM for both Embedding Generation and Language Understanding》(arXiv:2506.04344): https://arxiv.org/pdf/2506.04344
[2]
arXiv:2506.04344: https://arxiv.org/pdf/2506.04344