文章/答案/技术大牛

发布

【人工智能学习】大语言模型LLM领域词向量化处理

文章来源：企鹅号 - 后端学习乐园

“帮我写一首关于量子物理的情诗”

当我对DeepSeek说：“帮我写一首关于量子物理的情诗”，DeepSeek会如何处理呢？

在前两篇文章中，我们已经粗略分析了分词和清洗这两个步骤，链接在此：

在大语言模型中，词向量化是语义理解的核心步骤。

用一句话描述，词向量化就是把词语的各个纬度的语法和含义，用计算机能理解的方式表示出来，纬度可以理解为切片或者一层层楼房。

让我们还是从“帮我写一首关于量子物理的情诗”开始，基于清洗后结果“写/一首/关于/量子物理/情诗”，继续分析词向量化所做的事：

一、词向量化的基本逻辑

词向量化通过数学映射将离散词汇转换为高维空间中的连续向量（通常200-1000维），相当于为每个词语制作“数字身份证”。

这种转换实现三个核心目标：

1. 语义捕捉：使用向量表示词语含义，使“量子物理”与“科学”的向量距离更近

2. 语法分析：使用向量表示语法，识别动词“写”与名词“诗”的搭配规律

3. 情感表达：使用向量表示词语的情感含义，让“情诗”的向量携带浪漫属性

这种技术将语言转化为几何空间中的坐标系统，使计算机能用向量运算处理语义关系。例如：

- 向量加减：国王向量 - 男人向量 + 女人向量 ≈ 女王向量

- 相似度计算：cos(量子物理, 相对论) > cos(量子物理, 玫瑰花)

简单来理解，一个对词语的评判纬度就当做一大楼的一层，通过一层层的纬度判断词语之间的关联及含义和情感等关联关系。

二、词向量化的主流算法及技术细节

1. 传统方法：One-Hot编码

原理：对每个词都独占一个维度，类似电影院座位号。若词表包含5万词，“量子物理”的向量为[0,0,...,1,...,0]，仅在第12345位为1。

如下例子这样：

词表 = {写:1, 一首:2, 关于:3, 量子物理:4, 情诗:5}

“写” [1,0,0,0,0]

局限性：

维度灾难：5万词需5万维向量

语义盲区：无法表达“苹果”作为水果与手机的关联

2. 上下文无关模型：Word2Vec（2013年）

核心思想：通过词语的上下文邻居学习表征，类似“物以类聚”。

它的两种训练方式：

- CBOW：用周围词预测中心词（例如填空：“__写一首关于量子的__”）

- Skip-gram：用中心词预测周围词（已知“量子”，猜测前后词）

数学公式：

P(上下文词|中心词) =最大化概率exp(向量_u·向量_v) / ∑exp(向量_u·向量_k)

通过梯度下降优化，使相关词（如“量子物理”与“科学”）的向量点积更大。

示例：若“量子物理”与“科学”的余弦相似度达0.82，则向量空间距离相近。

经典案例：

Google新闻词向量中，“国王 - 男人 + 女人 ≈ 女王”；“情诗 - 爱情 + 战争 ≈ 战歌”。

3. 上下文相关模型：BERT（2018年）

创新点：同一词在不同语境中生成动态向量。例如“苹果”在“苹果手机”和“苹果派”中的向量差异显著。

关键技术：

Transformer架构：12-24层网络堆叠，每层提取不同抽象特征

自注意力机制：计算词间关联权重

数学过程：

1. 输入序列生成查询(Q)、键(K)、值(V)矩阵

2. 注意力权重 = softmax( (Q·K^T)/sqrt(d_k) )

3. 输出 = 注意力权重 · V

例如处理“量子物理”时，其与“科学”“理论”等词会产生高注意力权重。

案例：在句子“量子物理情诗”中，“量子”的向量会携带诗意浪漫属性（如维度2=0.15），而在科学论文中同一词汇的该维度可能为-0.03。

4. 知识增强型向量

实现方法：将知识图谱（如“量子物理属于物理学”）融入向量空间。

技术细节：

- 使用图神经网络（GNN）编码知识图谱结构

- 联合训练词向量与知识嵌入

专利案例：

九恒星公司的向量知识库通过检索增强生成（RAG），提升专业领域回答准确率。

三、示例分析：“写/一首/关于/量子物理/情诗”的处理过程

1. 子词拆分（以BERT为例）

输入拆分：["写", "一首", "关于", "量", "##子", "物", "##理", "情", "诗"]

自注意力层建立连接：

- “量子物理”形成科学主题簇

- “情诗”形成情感主题簇

简单理解：子词拆分如同将复杂的内容进行拆分和汇总，得到句子的核心表达主题，让大模型将注意力放在这个主题方面。

2. 句子向量合成

均值池化：取各词向量平均值，公式为 V句子 = (V写 + V一首 + ... + V情诗)/5

CLS标记：BERT在句首添加特殊标记，其向量包含全局语义（推荐方式）

加权平均：根据注意力权重计算 ∑(权重*Vi)，突出重要词语

简单理解：将词语的向量进行加权平均，得到句子整体的向量，以此来标记作为这个输入的句子评判标准。

3. 生成预测机制

当模型处理到“写一首关于量子物理...”时：

1. 计算隐藏状态：h = Transformer(V写, V一首, ..., V量子物理)

2. 输出层计算概率：P(下一个词) = softmax(W·h + b)

3. “情诗”概率高于“报告”的原因：

- 训练数据中“量子物理”与浪漫主题共现

- 自注意力捕捉到“情诗”的情感修饰意图

四、向量技术最新进展

1. 多模态向量对齐

案例：Stable Diffusion实现文本到图像生成

步骤：

1. 文本编码器生成“量子物理情诗”向量

2. 图像编码器提取梵高画作特征

3. 对齐两个向量空间，引导图像生成

2. 高效微调技术：LoRA

原理：

- 冻结原始参数矩阵W

- 添加低秩矩阵ΔW = A·B（A、B为可训练小矩阵）

- 更新公式：h = (W + ΔW)·x

优势：仅训练0.1%参数即可让“情诗”向量适应不同诗歌风格

3. 分布式训练：3D并行

方法：

- 数据并行：拆分批次到多GPU

- 模型并行：横向切分网络层

- 流水线并行：纵向切分计算阶段

应用：Meta的LLaMA模型借此训练千亿参数

总结：

词向量化技术从静态编码（Word2Vec）到动态感知（BERT），再通过知识增强与多模态融合持续进化。如GPT-4或者DeepSeek所示，当向量维度扩展至12288维时，模型已能捕捉“量子物理的浪漫”这类抽象概念的微妙表达，这成为了大预言模型能够理解复杂语义的基石。

向量技术学习资源列表：

一、学术论文

1. 《Component-Enhanced Chinese Character Embeddings》

访问地址：

发表于: 2025-02-262025-02-26 07:54:00
原文链接：https://page.om.qq.com/page/OFgPYiEcc7XFIAz48LpE9ryA0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

【人工智能学习】大语言模型LLM领域词向量化处理

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐