Day6 学习日志:从架构细节到对齐
日期:2026-03-20
定位:在 Day5「参数量账本」之上,补齐训练/推理中的关键机制与对齐链路。
一、昨日回顾(Day5 要点)
昨天(2026-03-19)把 GPT-3 约 175B 从矩阵维度「算清楚」了,核心是:
| |
|---|
| |
| 约 :Attention 占约 1/3(),FFN 占约 2/3(升维 4× 再降回) |
| 单层 亿 × 96 层 + Embedding 175B |
| Attention 管「谁和谁相关」,FFN 管「记什么」;FP16 下仅权重就约 350GB 量级 |
| 点乘与 、Q/K 维对齐、预训练 → SFT → 偏好对齐的大致生命周期 |
今天在此基础上,往 更细的工程机制(归一化、缩放、词表头、采样)和 对齐后半段(RM、PPO、DPO 趋势)下沉一层。
二、今日精读:架构里的「呼吸与温控」
1. Add & Norm:深层网络能训稳的底线
- • 残差 Add:。相当于给梯度留「高速公路」——即便当前子层 学得不好,信号 仍能直通,缓解深层 梯度消失。
- • Layer Norm:把激活拉回稳定尺度,避免连乘后数值爆炸或塌缩,训练更稳。
二者常被说成 Transformer 块的「呼吸与温控」:残差保通路,Norm 保数值秩序。
2. :Softmax 前的「贫富调节」
- • 点积随维度变大容易整体偏大,Softmax 会极度尖锐(几乎 one-hot),梯度在少数位置上饱和,模型难以学到「多种合理关注」。
- • 除以 把点积尺度拉回与维度无关的量级,让 Softmax 更平滑,保留可调空间,也更有「创造性」的余地(相对极端尖峰而言)。
三、今日精读:模型如何「开口说话」
1. Linear Head:从隐向量到词表
- • 最后一层输出的是 维语义向量,不是某个汉字/ token。
- • 词表投影矩阵(量级上 ,如 GPT-3 里与 50257 类词表对齐)把该向量与 全词表「原型向量」 做匹配,得到每个词的 logits(未归一化分数)。
2. 采样:同一 logits,不同「性格」
- • Top-K / Top-P:不永远只取 argmax,而是在高分子集里再随机,输出更丰富。
- • Temperature:温度高 → 分布更平 → 低概率 token 更容易被采到,更发散、更有梗;温度低 → 更保守、更像「标准答案」。
应用侧调 API 时,temperature、top_p 就是在动这一层概率几何。
四、今日精读:从 SFT 到 PPO(再瞥一眼 DPO)
1. 奖励模型 RM:学会「打分」
- • 在 SFT 模型 backbone 上换头或加头,用 人类排序(如回答 A 优于 B)训练,使 好回答分数高于差回答(拉大 )。
- • RM 本身不直接生成文本,是给策略模型提供 标量反馈信号。
2. PPO:带约束的策略更新
- • 思路:策略(SFT 后的模型)在生成时「试探」,根据 RM 的回报调整参数。
- • Advantage:若本次生成比基线更好,就加强这条轨迹;反之弱化。
- • KL 惩罚:限制新策略相对参考模型(常为 SFT checkpoint)别飘太远,避免为刷分而产生怪异、不安全或分布外文本。
PPO 效果好但 重、难调;工业界不少场景在往 DPO(直接偏好优化) 等更简洁的对齐方法迁移。
3. 工程师视角的一句话
模型本质是在 高维空间里重排概率;参数要 能训稳、能对齐 才有用。做应用时,注意力 、KV Cache、上下文长度对 延迟和账单 的影响,往往比多背一个公式更紧迫。
明日预告
开启 AI 应用实战方向:RAG 架构 与 Function Calling 。