“帮我写一首关于量子物理的情诗”
当我对DeepSeek说:“帮我写一首关于量子物理的情诗”,DeepSeek会如何处理呢?
在前两篇文章中,我们已经粗略分析了分词和清洗这两个步骤,链接在此:
在大语言模型中,词向量化是语义理解的核心步骤。
用一句话描述,词向量化就是把词语的各个纬度的语法和含义,用计算机能理解的方式表示出来,纬度可以理解为切片或者一层层楼房。
让我们还是从“帮我写一首关于量子物理的情诗”开始,基于清洗后结果“写/一首/关于/量子物理/情诗”,继续分析词向量化所做的事:
一、词向量化的基本逻辑
词向量化通过数学映射将离散词汇转换为高维空间中的连续向量(通常200-1000维),相当于为每个词语制作“数字身份证”。
这种转换实现三个核心目标:
1. 语义捕捉:使用向量表示词语含义,使“量子物理”与“科学”的向量距离更近
2. 语法分析:使用向量表示语法,识别动词“写”与名词“诗”的搭配规律
3. 情感表达:使用向量表示词语的情感含义,让“情诗”的向量携带浪漫属性
这种技术将语言转化为几何空间中的坐标系统,使计算机能用向量运算处理语义关系。例如:
- 向量加减:国王向量 - 男人向量 + 女人向量 ≈ 女王向量
- 相似度计算:cos(量子物理, 相对论) > cos(量子物理, 玫瑰花)
简单来理解,一个对词语的评判纬度就当做一大楼的一层,通过一层层的纬度判断词语之间的关联及含义和情感等关联关系。
二、词向量化的主流算法及技术细节
1. 传统方法:One-Hot编码
原理:对每个词都独占一个维度,类似电影院座位号。若词表包含5万词,“量子物理”的向量为[0,0,...,1,...,0],仅在第12345位为1。
如下例子这样:
词表 = {写:1, 一首:2, 关于:3, 量子物理:4, 情诗:5}
“写” [1,0,0,0,0]
局限性:
维度灾难:5万词需5万维向量
语义盲区:无法表达“苹果”作为水果与手机的关联
2. 上下文无关模型:Word2Vec(2013年)
核心思想:通过词语的上下文邻居学习表征,类似“物以类聚”。
它的两种训练方式:
- CBOW:用周围词预测中心词(例如填空:“__写一首关于量子的__”)
- Skip-gram:用中心词预测周围词(已知“量子”,猜测前后词)
数学公式:
P(上下文词|中心词) =最大化概率exp(向量_u·向量_v) / ∑exp(向量_u·向量_k)
通过梯度下降优化,使相关词(如“量子物理”与“科学”)的向量点积更大。
示例:若“量子物理”与“科学”的余弦相似度达0.82,则向量空间距离相近。
经典案例:
Google新闻词向量中,“国王 - 男人 + 女人 ≈ 女王”;“情诗 - 爱情 + 战争 ≈ 战歌”。
3. 上下文相关模型:BERT(2018年)
创新点:同一词在不同语境中生成动态向量。例如“苹果”在“苹果手机”和“苹果派”中的向量差异显著。
关键技术:
Transformer架构:12-24层网络堆叠,每层提取不同抽象特征
自注意力机制:计算词间关联权重
数学过程:
1. 输入序列生成查询(Q)、键(K)、值(V)矩阵
2. 注意力权重 = softmax( (Q·K^T)/sqrt(d_k) )
3. 输出 = 注意力权重 · V
例如处理“量子物理”时,其与“科学”“理论”等词会产生高注意力权重。
案例:在句子“量子物理情诗”中,“量子”的向量会携带诗意浪漫属性(如维度2=0.15),而在科学论文中同一词汇的该维度可能为-0.03。
4. 知识增强型向量
实现方法:将知识图谱(如“量子物理属于物理学”)融入向量空间。
技术细节:
- 使用图神经网络(GNN)编码知识图谱结构
- 联合训练词向量与知识嵌入
专利案例:
九恒星公司的向量知识库通过检索增强生成(RAG),提升专业领域回答准确率。
三、示例分析:“写/一首/关于/量子物理/情诗”的处理过程
1. 子词拆分(以BERT为例)
输入拆分:["写", "一首", "关于", "量", "##子", "物", "##理", "情", "诗"]
自注意力层建立连接:
- “量子物理”形成科学主题簇
- “情诗”形成情感主题簇
简单理解:子词拆分如同将复杂的内容进行拆分和汇总,得到句子的核心表达主题,让大模型将注意力放在这个主题方面。
2. 句子向量合成
均值池化:取各词向量平均值,公式为 V句子 = (V写 + V一首 + ... + V情诗)/5
CLS标记:BERT在句首添加特殊标记,其向量包含全局语义(推荐方式)
加权平均:根据注意力权重计算 ∑(权重*Vi),突出重要词语
简单理解:将词语的向量进行加权平均,得到句子整体的向量,以此来标记作为这个输入的句子评判标准。
3. 生成预测机制
当模型处理到“写一首关于量子物理...”时:
1. 计算隐藏状态:h = Transformer(V写, V一首, ..., V量子物理)
2. 输出层计算概率:P(下一个词) = softmax(W·h + b)
3. “情诗”概率高于“报告”的原因:
- 训练数据中“量子物理”与浪漫主题共现
- 自注意力捕捉到“情诗”的情感修饰意图
四、向量技术最新进展
1. 多模态向量对齐
案例:Stable Diffusion实现文本到图像生成
步骤:
1. 文本编码器生成“量子物理情诗”向量
2. 图像编码器提取梵高画作特征
3. 对齐两个向量空间,引导图像生成
2. 高效微调技术:LoRA
原理:
- 冻结原始参数矩阵W
- 添加低秩矩阵ΔW = A·B(A、B为可训练小矩阵)
- 更新公式:h = (W + ΔW)·x
优势:仅训练0.1%参数即可让“情诗”向量适应不同诗歌风格
3. 分布式训练:3D并行
方法:
- 数据并行:拆分批次到多GPU
- 模型并行:横向切分网络层
- 流水线并行:纵向切分计算阶段
应用:Meta的LLaMA模型借此训练千亿参数
总结:
词向量化技术从静态编码(Word2Vec)到动态感知(BERT),再通过知识增强与多模态融合持续进化。如GPT-4或者DeepSeek所示,当向量维度扩展至12288维时,模型已能捕捉“量子物理的浪漫”这类抽象概念的微妙表达,这成为了大预言模型能够理解复杂语义的基石。
向量技术学习资源列表:
一、学术论文
1. 《Component-Enhanced Chinese Character Embeddings》
访问地址:
领取专属 10元无门槛券
私享最新 技术干货