首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【人工智能学习】大语言模型LLM领域词向量化处理

“帮我写一首关于量子物理的情诗”

当我对DeepSeek说:“帮我写一首关于量子物理的情诗”,DeepSeek会如何处理呢?

在前两篇文章中,我们已经粗略分析了分词和清洗这两个步骤,链接在此:

在大语言模型中,词向量化是语义理解的核心步骤。

用一句话描述,词向量化就是把词语的各个纬度的语法和含义,用计算机能理解的方式表示出来,纬度可以理解为切片或者一层层楼房。

让我们还是从“帮我写一首关于量子物理的情诗”开始,基于清洗后结果“写/一首/关于/量子物理/情诗”,继续分析词向量化所做的事:

一、词向量化的基本逻辑

词向量化通过数学映射将离散词汇转换为高维空间中的连续向量(通常200-1000维),相当于为每个词语制作“数字身份证”。

这种转换实现三个核心目标: 

1. 语义捕捉:使用向量表示词语含义,使“量子物理”与“科学”的向量距离更近 

2. 语法分析:使用向量表示语法,识别动词“写”与名词“诗”的搭配规律 

3. 情感表达:使用向量表示词语的情感含义,让“情诗”的向量携带浪漫属性 

这种技术将语言转化为几何空间中的坐标系统,使计算机能用向量运算处理语义关系。例如: 

- 向量加减:国王向量 - 男人向量 + 女人向量 ≈ 女王向量 

- 相似度计算:cos(量子物理, 相对论) > cos(量子物理, 玫瑰花) 

简单来理解,一个对词语的评判纬度就当做一大楼的一层,通过一层层的纬度判断词语之间的关联及含义和情感等关联关系。

二、词向量化的主流算法及技术细节

1. 传统方法:One-Hot编码 

原理:对每个词都独占一个维度,类似电影院座位号。若词表包含5万词,“量子物理”的向量为[0,0,...,1,...,0],仅在第12345位为1。

如下例子这样:

词表 = {写:1, 一首:2, 关于:3, 量子物理:4, 情诗:5} 

“写” [1,0,0,0,0] 

局限性: 

维度灾难:5万词需5万维向量 

语义盲区:无法表达“苹果”作为水果与手机的关联 

2. 上下文无关模型:Word2Vec(2013年) 

核心思想:通过词语的上下文邻居学习表征,类似“物以类聚”。

它的两种训练方式: 

- CBOW:用周围词预测中心词(例如填空:“__写一首关于量子的__”) 

- Skip-gram:用中心词预测周围词(已知“量子”,猜测前后词) 

数学公式: 

P(上下文词|中心词) =最大化概率exp(向量_u·向量_v) / ∑exp(向量_u·向量_k) 

通过梯度下降优化,使相关词(如“量子物理”与“科学”)的向量点积更大。

示例:若“量子物理”与“科学”的余弦相似度达0.82,则向量空间距离相近。

经典案例: 

Google新闻词向量中,“国王 - 男人 + 女人 ≈ 女王”;“情诗 - 爱情 + 战争 ≈ 战歌”。 

3. 上下文相关模型:BERT(2018年) 

创新点:同一词在不同语境中生成动态向量。例如“苹果”在“苹果手机”和“苹果派”中的向量差异显著。 

关键技术: 

Transformer架构:12-24层网络堆叠,每层提取不同抽象特征 

自注意力机制:计算词间关联权重 

数学过程: 

1. 输入序列生成查询(Q)、键(K)、值(V)矩阵 

2. 注意力权重 = softmax( (Q·K^T)/sqrt(d_k) ) 

3. 输出 = 注意力权重 · V 

例如处理“量子物理”时,其与“科学”“理论”等词会产生高注意力权重。 

案例:在句子“量子物理情诗”中,“量子”的向量会携带诗意浪漫属性(如维度2=0.15),而在科学论文中同一词汇的该维度可能为-0.03。

4. 知识增强型向量 

实现方法:将知识图谱(如“量子物理属于物理学”)融入向量空间。 

技术细节: 

- 使用图神经网络(GNN)编码知识图谱结构 

- 联合训练词向量与知识嵌入 

专利案例: 

九恒星公司的向量知识库通过检索增强生成(RAG),提升专业领域回答准确率。 

三、示例分析:“写/一首/关于/量子物理/情诗”的处理过程

1. 子词拆分(以BERT为例) 

输入拆分:["写", "一首", "关于", "量", "##子", "物", "##理", "情", "诗"]

自注意力层建立连接: 

- “量子物理”形成科学主题簇 

- “情诗”形成情感主题簇

简单理解:子词拆分如同将复杂的内容进行拆分和汇总,得到句子的核心表达主题,让大模型将注意力放在这个主题方面。

2. 句子向量合成 

均值池化:取各词向量平均值,公式为 V句子 = (V写 + V一首 + ... + V情诗)/5

CLS标记:BERT在句首添加特殊标记,其向量包含全局语义(推荐方式)

加权平均:根据注意力权重计算 ∑(权重*Vi),突出重要词语

简单理解:将词语的向量进行加权平均,得到句子整体的向量,以此来标记作为这个输入的句子评判标准。

3. 生成预测机制 

当模型处理到“写一首关于量子物理...”时: 

1. 计算隐藏状态:h = Transformer(V写, V一首, ..., V量子物理) 

2. 输出层计算概率:P(下一个词) = softmax(W·h + b) 

3. “情诗”概率高于“报告”的原因: 

- 训练数据中“量子物理”与浪漫主题共现 

- 自注意力捕捉到“情诗”的情感修饰意图 

四、向量技术最新进展

1. 多模态向量对齐 

案例:Stable Diffusion实现文本到图像生成 

步骤: 

1. 文本编码器生成“量子物理情诗”向量 

2. 图像编码器提取梵高画作特征 

3. 对齐两个向量空间,引导图像生成 

2. 高效微调技术:LoRA 

原理: 

- 冻结原始参数矩阵W 

- 添加低秩矩阵ΔW = A·B(A、B为可训练小矩阵) 

- 更新公式:h = (W + ΔW)·x 

优势:仅训练0.1%参数即可让“情诗”向量适应不同诗歌风格 

3. 分布式训练:3D并行 

方法: 

- 数据并行:拆分批次到多GPU 

- 模型并行:横向切分网络层 

- 流水线并行:纵向切分计算阶段 

应用:Meta的LLaMA模型借此训练千亿参数 

总结:

词向量化技术从静态编码(Word2Vec)到动态感知(BERT),再通过知识增强与多模态融合持续进化。如GPT-4或者DeepSeek所示,当向量维度扩展至12288维时,模型已能捕捉“量子物理的浪漫”这类抽象概念的微妙表达,这成为了大预言模型能够理解复杂语义的基石。

向量技术学习资源列表:

一、学术论文 

1. 《Component-Enhanced Chinese Character Embeddings》 

访问地址:

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OFgPYiEcc7XFIAz48LpE9ryA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券