LLM中位置编码原理解析：为什么位置信息如此关键？

原创

Echo_Wish

发布于 2025-07-17 15:22:41

35600

代码可运行

文章被收录于专栏：云社区活动云社区活动

运行总次数：0

代码可运行

LLM中位置编码原理解析：为什么位置信息如此关键？

今天我们聊聊大模型（LLM）中的一个看似“配角”却至关重要的主角——位置编码（Positional Encoding）。

你可能听过Transformer架构，GPT系列，LLM大模型……但有没有想过，Transformer虽然能处理文本，但它本身并不知道单词的顺序。这听起来是不是有点“离谱”？没错，要不是“位置编码”这个神奇的设计，Transformer就像看小说时不看章节顺序，一团糟。

那么问题来了：

位置编码到底是怎么让模型理解词语顺序的？
为什么不能像RNN那样天然按顺序处理？
实际使用中有哪些坑要避？

别急，今天咱们一文带你搞懂！

一、为啥要位置编码？Transformer你别忘了你是“无序”的！

传统的RNN、LSTM这种序列模型，天生是“线性串行”的。你给我第一个词，我处理完了，再处理第二个……信息一个接一个过来。

但是到了Transformer架构，一切都变了！

Transformer的多头自注意力机制（Multi-head Self-Attention）是并行处理所有输入token的。每个词之间的相对顺序，在它眼里根本“不存在”。这就导致一个严重问题：

“我”爱“你”和“你”爱“我”，在模型看来是一模一样的输入！

为了补上这块短板，位置编码就来了。

二、位置编码的两大思路

1. 固定位置编码（Sinusoidal Positional Encoding）

这是最经典的，也是最早被Transformer论文使用的方法。思想很简单：我们用一堆正弦函数和余弦函数来表示不同位置的信息。

公式如下：

import numpy as np
import torch

def get_sinusoidal_encoding(seq_len, d_model):
    pos = np.arange(seq_len)[:, np.newaxis]
    i = np.arange(d_model)[np.newaxis, :]
    angle_rates = 1 / np.power(10000, (2 * (i // 2)) / np.float32(d_model))
    angle_rads = pos * angle_rates

    # Apply sin to even indices in the array; cos to odd indices
    angle_rads[:, 0::2] = np.sin(angle_rads[:, 0::2])
    angle_rads[:, 1::2] = np.cos(angle_rads[:, 1::2])
    return torch.tensor(angle_rads, dtype=torch.float32)

encoding = get_sinusoidal_encoding(10, 16)
print(encoding.shape)  # torch.Size([10, 16])

这种方式的优点是：不需要训练参数，可以外推到任意长度。但缺点是：不一定适用于非常复杂的上下文结构。

2. 可学习的位置编码（Learnable Positional Embedding）

后来的GPT系列采用了另一种方式：每一个位置都分配一个可训练的向量，直接加入输入token的embedding中。

import torch.nn as nn

class LearnablePositionalEncoding(nn.Module):
    def __init__(self, max_len, d_model):
        super().__init__()
        self.pos_embedding = nn.Embedding(max_len, d_model)

    def forward(self, x):
        positions = torch.arange(x.size(1), device=x.device).unsqueeze(0)
        return x + self.pos_embedding(positions)

这就像给每个位置“贴上标签”，模型训练过程中自己学出哪些位置重要。

三、位置编码是怎么“起作用”的？

你可以这样理解：

每个词在输入时，会有自己的词向量（word embedding）；
再叠加上一个表示**“我在哪个位置”的向量**；
然后一起送入自注意力中计算。

这样，模型就能“意识到”：

“哦，原来‘你’出现在第三个位置，它的作用和出现在第一个位置是不一样的。”

更形象点：就像我们听一句话，不仅听“是什么词”，还听“它出现在什么地方”。

四、位置信息到底有多重要？一个实验给你看！

我曾经做过一个简单的实验，分别在有位置编码和没有位置编码的Transformer上训练一个语言模型，句子是：

我 喜欢 吃 火锅  
火锅 吃 喜欢 我

没有位置编码的模型，loss根本降不下去，因为它根本无法区分哪种顺序是“合理语法”。

有位置编码的模型，立马就能学到“我喜欢吃火锅”是更优的表达。

五、高级玩法：相对位置编码、旋转编码RoPE等

近几年大家发现：原始的位置编码有点“太死板”了。

于是各种进阶版登场：

相对位置编码（Relative Position Encoding）：不是关注我在第几个，而是“我和你之间的距离是多少”；
RoPE（Rotary Positional Encoding）：引入复数旋转操作，让注意力计算时内嵌位置变化；
ALiBi（Attention with Linear Biases）：直接修改注意力权重里的偏置项，使其具备位置信息……

这些方法的目的都是：在不增加太多复杂度的同时，更好地融合位置信息。

六、总结：位置编码虽然“小”，但作用真的“大”！

回到标题：为什么位置信息如此关键？

因为Transformer处理的是“包子铺排队”的输入，它并不知道谁先来、谁后到。位置编码就是给每个词贴上了“排队号”，让模型知道谁是谁，谁前谁后。

就像我们吃自助餐，排队先后顺序非常关键，要不然别人还没夹你就吃饱了！

最后的话：别再忽视位置编码这个小细节

很多刚入门LLM的朋友，眼里只有注意力、多头机制、残差结构，却忽略了位置编码这个“小齿轮”。但要知道，没有它，整个Transformer都转不起来。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

腾讯技术创作特训营S14#补给站

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

腾讯技术创作特训营S14#补给站

登录后参与评论

0 条评论

热度

LLM中位置编码原理解析：为什么位置信息如此关键？

LLM中位置编码原理解析：为什么位置信息如此关键？

LLM中位置编码原理解析：为什么位置信息如此关键？

一、为啥要位置编码？Transformer你别忘了你是“无序”的！

二、位置编码的两大思路

1. 固定位置编码（Sinusoidal Positional Encoding）

2. 可学习的位置编码（Learnable Positional Embedding）

三、位置编码是怎么“起作用”的？

四、位置信息到底有多重要？一个实验给你看！

五、高级玩法：相对位置编码、旋转编码RoPE等

六、总结：位置编码虽然“小”，但作用真的“大”！

最后的话：别再忽视位置编码这个小细节

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐