首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >再见嵌入模型?META提出GEM,用一个大模型搞定生成与理解

再见嵌入模型?META提出GEM,用一个大模型搞定生成与理解

作者头像
AgenticAI
发布2025-06-12 14:06:05
发布2025-06-12 14:06:05
2090
举报
文章被收录于专栏:AgenticAIAgenticAI

在当下诸如 RAG 等应用系统中,“生成”与“理解”常由两个不同模型完成。一个用于文本生成的解码式语言模型(如 GPT),另一个用于语义匹配的嵌入模型(如 OpenAI Embedding、BGE 等)。虽然这种组合取得了不错的效果,但也带来了一些长期痛点:

  • 系统结构复杂,部署成本高;
  • 不同模型对语义的理解不一致,影响下游性能;
  • 嵌入模型常需额外训练或调用第三方服务。

近日,来自 Meta 的研究者提出了一种新方法——GEM(Generative Embedding Model),旨在让一个解码式语言模型在保持语言生成能力的同时,具备高质量语义嵌入生成能力,实现“统一模型,双重能力”。

本文将系统解读这篇论文《GEM: Empowering LLM for both Embedding Generation and Language Understanding》(arXiv:2506.04344)[1],分析其核心机制、实验验证与未来潜力。

研究动机

目前,大多数嵌入模型为专门训练的双塔结构(如 BERT-based 模型),而主流 LLM(如 LLaMA、GPT)为解码式结构。两者设计目标不同,使得它们对语义的理解存在偏差。

GEM 提出的根本问题是:

能否直接让 LLM 自身学习生成高质量的嵌入,从而兼顾生成与理解?

如果实现,那么在检索增强生成、问答系统、语义搜索等多个任务中,只需部署一个模型即可完成全文理解与回答生成,系统更轻量,部署更简单,语义一致性更好。

方法概述

GEM 的核心机制是:在输入文本中插入一个或多个特殊的 [EMB] token,并通过设计注意力掩码,引导模型将语义信息聚合到这些 token 上。训练过程中,模型被迫在不访问上下文原文的情况下,仅使用 [EMB] token 来完成文本生成,从而使其学习到高效的语义压缩能力。

image-20250611230005138
image-20250611230005138

image-20250611230005138

具体而言:

  • 特殊 token 设计:在输入文本前插入 [EMB] token,该 token 是用于聚合语义的“嵌入槽位”。
  • 注意力机制控制:训练时,掩蔽掉 [EMB] token 到其他 [EMB] token 的注意力通路,确保每个 token 只从上下文中独立聚合语义。
  • 自监督训练目标:整体训练过程与原始 LLM 任务保持一致,无需新标注,仅需微调或训练。

训练完成后,这些 [EMB] token 的隐藏表示即可作为文本嵌入向量,用于向量检索、语义匹配等任务。

image-20250611230035754
image-20250611230035754

image-20250611230035754

实验设计与结果分析

论文在多个语义嵌入评估任务(如 MTEB 基准)上,对 GEM 的嵌入能力进行了系统评估,并与现有主流嵌入模型如 E5、BGE 进行了比较。

  • 嵌入质量显著提升:GEM 在检索、聚类、文本分类等任务上,均优于常规嵌入模型,尤其在无监督场景下优势明显。
  • 语言生成能力保持:在生成评估任务(如 SQuAD、GSM8K)上,GEM 在插入 [EMB] token 后生成质量几乎无损,说明其语义聚合过程并未干扰语言建模能力。
  • 消融实验结果:实验评估了不同 [EMB] token 数量、注意力布局策略等对性能的影响,验证了设计机制的鲁棒性与可扩展性。
MMLU左侧为MTEB展开的各项评测
MMLU左侧为MTEB展开的各项评测

MMLU左侧为MTEB展开的各项评测

可以看到,其在 MTEB 上提升明显甚至有倍的提升,而在 MMLU 上似乎略有下降。

方法贡献与潜在价值

GEM 提供了一种高效的范式,在无需引入额外监督信号的前提下,让解码式语言模型自带高质量语义嵌入能力,具有如下几点关键价值:

  1. 统一模型结构:避免双模型系统,简化部署流程,提升一致性。
  2. 解码式架构兼容:无需引入编码器分支,适用于 LLaMA、Mistral 等主流模型
  3. 自监督训练高效:仅需微调,训练目标与原始模型一致,无需人工标签或辅助任务。
  4. 灵活嵌入粒度控制:可通过设置多个 [EMB] token 控制语义压缩分辨率。
  5. 经济高效:只用了32000行训练数据。

局限与展望

虽然 GEM 展现了令人信服的效果,但仍存在一些问题与未来方向:

  • 长文本建模能力:对特别长的文本,少量 [EMB] token 能否承载足够语义信息尚待验证。
  • 训练资源要求:虽然无需标签,但修改注意力掩码需要对模型训练管线有深入改动,迁移成本仍在。
  • 多模态扩展性:目前方法集中于文本语义,未来是否可扩展到图文或代码等多模态场景,值得进一步探索。

总结

GEM 提出了一种让解码式语言模型内生高质量嵌入能力的新范式,具有理论简洁性与实践高效性的双重优势。它不仅挑战了“嵌入必须由专用模型生成”的传统认知,也为构建更简洁、高效的一体化语义系统提供了可能。随着 LLM 向通用智能加速演进,像 GEM 这样的统一型机制将为下一代智能系统的设计带来重要启示。

如需深入阅读,推荐查阅原文arXiv:2506.04344[2]

AgenticAI

介绍大语言模型的最新发展并深入剖析LLM Agent框架和应用

136篇原创内容

公众号

参考资料

[1] 

《GEM: Empowering LLM for both Embedding Generation and Language Understanding》(arXiv:2506.04344): https://arxiv.org/pdf/2506.04344

[2] 

arXiv:2506.04344: https://arxiv.org/pdf/2506.04344

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-06-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AgenticAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 研究动机
  • 方法概述
  • 实验设计与结果分析
  • 方法贡献与潜在价值
  • 局限与展望
  • 总结
    • 参考资料
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档