
你是否好奇,当你在电商网站搜索“舒适的跑鞋”,系统是如何为你推荐一双“适合长跑的透气运动鞋”的?这两句话字面上并不完全一样,但 AI 却能精准捕捉到它们背后相似的“意图”。这背后的魔术师,就是我们今天要介绍的主角——Embedding 模型。
简单来说,Embedding(嵌入)是一种将现实世界中复杂、离散的数据(如文字、图片、声音)转换为机器能够理解和处理的数学语言(即向量)的技术。
想象一下图书馆里的每一本书。我们不会用书的全部内容来寻找它,而是通过一张索引卡。这张卡片上记录了书的关键属性:类别(小说/历史)、主题(战争/爱情)、作者风格(悬疑/幽默)等等。
Embedding 模型做的就是类似的事情。它为每一个数据点(一句话、一个商品、一张图片)生成一张“数字索引卡”,这张卡片就是嵌入向量(Embedding Vector)——一长串由数字组成的列表,例如 [0.12, -0.78, 0.45, ...]。
所有 Embedding 模型训练的根本目标都可以用一句话概括:在数学空间中,让相似的东西彼此靠近,不相似的东西相互远离。

通过计算这些向量之间的距离(如余弦相似度),AI 系统就能超越简单的关键词匹配,实现真正意义上的“语义理解”,从而赋能各种智能应用,如:
在下一篇文章中,我们将打开 Embedding 模型的黑匣子,亲眼看看一句话是如何一步步被转换成一个神奇的向量的。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。