
在系列的前三篇文章中,我们深度剖析了 Embedding 模型的原理和构造。在最后一篇,我们将把它放回更广阔的 AI 世界中,厘清它与大语言模型(LLM)的关系,并点出所有模型应用成败的“终极法则”。
很多人会将 Embedding 模型与 GPT-4 这样的大语言模型(LLM)混淆。它们的核心技术(Transformer)确实同源,但它们的目标和角色定位截然不同。
一个绝佳的类比是:
特性 | 大语言模型 (LLM) | Embedding 模型 |
|---|---|---|
核心目标 | 理解并生成文本 | 理解并表示文本 |
主要输出 | 人类可读的文本 | 机器可读的向量 |
架构终点站 | 词汇预测层 | 池化层 |
典型用途 | 对话、写作、问答 | 语义搜索、推荐 |
此外,我们常说的 LLM 有 70B(700亿)参数,这个“参数量”代表的是整个“大脑”的规模和知识容量;而 Embedding 的“维度”(如 768 维)则代表了为单个概念制作“索引卡”时所用的特征数量。两者描述的不是同一个层面的东西。
无论是 Embedding 模型还是 LLM,我们必须牢记一个最根本的实践原则:模型的一切知识,都 100% 源于它所学习的训练数据(语料)。
模型就像一个学生,它的能力上限被它的“教科书”牢牢锁定。
这就引出了 Embedding 应用的黄金法则:要想效果好,需要场景类似。
你计划应用模型的场景,必须与训练模型的语料场景高度匹配。如果你想为你的电商网站做一个商品搜索引擎,那么使用一个在海量商品评论和描述上训练过的 Embedding 模型,其效果会远超一个通用的新闻语料模型。
因此,选择或训练一个与你业务场景高度相关的 Embedding 模型,是其在现实世界中取得成功的关键所在。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。