前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >语义检索-BAAI Embedding语义向量模型深度解析:微调Cross-Encoder以提升语义检索精度

语义检索-BAAI Embedding语义向量模型深度解析:微调Cross-Encoder以提升语义检索精度

作者头像
汀丶人工智能
发布2024-07-09 08:37:34
3450
发布2024-07-09 08:37:34
举报
文章被收录于专栏:NLP/KG

语义检索-BAAI Embedding语义向量模型深度解析:微调Cross-Encoder以提升语义检索精度

语义向量模型(Embedding Model)已经被广泛应用于搜索、推荐、数据挖掘等重要领域。在大模型时代,它更是用于解决幻觉问题、知识时效问题、超长文本问题等各种大模型本身制约或不足的必要技术。然而,当前中文世界的高质量语义向量模型仍比较稀缺,且很少开源

BGE 出色的语义表征能力源于两方面要素:1)针对表征的预训练,2)大规模文本对训练。

BGE 在悟道 、Pile 两个大规模语料集上采取了针对表征的预训练算法 RetroMAE :将低掩码率的输入编码为语义向量(Embed),再将高掩码率的输入与语义向量拼接以重建原始输入。这样一来,BGE 得以利用无标签语料实现语言模型基座对语义表征任务的适配。

BGE 针对中文、英文分别构建了多达120M、232M的样本对数据,从而帮助模型掌握实际场景中各种不同的语义匹配任务,并借助负采样扩增 [1] 与难负样例挖掘 [2] 进一步提升对比学习的难度,实现了多达65K的负样本规模,增强了语义向量的判别能力。

另外,BGE 借鉴 Instruction Tuning [3] 的思想,采取了非对称的指令添加方式,在问题端添加场景描述&

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2024-07-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 语义检索-BAAI Embedding语义向量模型深度解析:微调Cross-Encoder以提升语义检索精度
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档