开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >专栏 >Day6 学习日志：从架构细节到对齐

Day6 学习日志：从架构细节到对齐

作者头像

小小猪排画中游

发布于 2026-06-17 08:32:21

发布于 2026-06-17 08:32:21

680

举报

Day6 学习日志：从架构细节到对齐

日期：2026-03-20 定位：在 Day5「参数量账本」之上，补齐训练/推理中的关键机制与对齐链路。

一、昨日回顾（Day5 要点）

昨天（2026-03-19）把 GPT-3 约 175B 从矩阵维度「算清楚」了，核心是：

要点	内容
配置	，96 层 Decoder，96 头，
单层公式	约：Attention 占约 1/3（），FFN 占约 2/3（升维 4× 再降回）
总量级	单层亿 × 96 层 + Embedding 175B
直觉	Attention 管「谁和谁相关」，FFN 管「记什么」；FP16 下仅权重就约 350GB 量级
顺带	点乘与、Q/K 维对齐、预训练 → SFT → 偏好对齐的大致生命周期

今天在此基础上，往 更细的工程机制（归一化、缩放、词表头、采样）和 对齐后半段（RM、PPO、DPO 趋势）下沉一层。

二、今日精读：架构里的「呼吸与温控」

1. Add & Norm：深层网络能训稳的底线

• 残差 Add：。相当于给梯度留「高速公路」——即便当前子层学得不好，信号仍能直通，缓解深层 梯度消失。
• Layer Norm：把激活拉回稳定尺度，避免连乘后数值爆炸或塌缩，训练更稳。

二者常被说成 Transformer 块的「呼吸与温控」：残差保通路，Norm 保数值秩序。

2. ：Softmax 前的「贫富调节」

• 点积随维度变大容易整体偏大，Softmax 会极度尖锐（几乎 one-hot），梯度在少数位置上饱和，模型难以学到「多种合理关注」。
• 除以把点积尺度拉回与维度无关的量级，让 Softmax 更平滑，保留可调空间，也更有「创造性」的余地（相对极端尖峰而言）。

三、今日精读：模型如何「开口说话」

1. Linear Head：从隐向量到词表

• 最后一层输出的是 维语义向量，不是某个汉字/ token。
• 词表投影矩阵（量级上，如 GPT-3 里与 50257 类词表对齐）把该向量与 全词表「原型向量」 做匹配，得到每个词的 logits（未归一化分数）。

2. 采样：同一 logits，不同「性格」

• Top-K / Top-P：不永远只取 argmax，而是在高分子集里再随机，输出更丰富。
• Temperature：温度高 → 分布更平 → 低概率 token 更容易被采到，更发散、更有梗；温度低 → 更保守、更像「标准答案」。

应用侧调 API 时，temperature、top_p 就是在动这一层概率几何。

四、今日精读：从 SFT 到 PPO（再瞥一眼 DPO）

1. 奖励模型 RM：学会「打分」

• 在 SFT 模型 backbone 上换头或加头，用 人类排序（如回答 A 优于 B）训练，使 好回答分数高于差回答（拉大）。
• RM 本身不直接生成文本，是给策略模型提供 标量反馈信号。

2. PPO：带约束的策略更新

• 思路：策略（SFT 后的模型）在生成时「试探」，根据 RM 的回报调整参数。
• Advantage：若本次生成比基线更好，就加强这条轨迹；反之弱化。
• KL 惩罚：限制新策略相对参考模型（常为 SFT checkpoint）别飘太远，避免为刷分而产生怪异、不安全或分布外文本。

PPO 效果好但 重、难调；工业界不少场景在往 DPO（直接偏好优化） 等更简洁的对齐方法迁移。

3. 工程师视角的一句话

模型本质是在 高维空间里重排概率；参数要 能训稳、能对齐 才有用。做应用时，注意力 、KV Cache、上下文长度对 延迟和账单 的影响，往往比多背一个公式更紧迫。

明日预告

开启 AI 应用实战方向：RAG 架构 与 Function Calling 。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-03-20，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自猪排AI 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

评论

登录后参与评论

0 条评论

热度

最新

目录

Day6 学习日志：从架构细节到对齐
- 一、昨日回顾（Day5 要点）
- 二、今日精读：架构里的「呼吸与温控」
  - 1. Add & Norm：深层网络能训稳的底线
  - 2. ：Softmax 前的「贫富调节」
- 三、今日精读：模型如何「开口说话」
  - 1. Linear Head：从隐向量到词表
  - 2. 采样：同一 logits，不同「性格」
- 四、今日精读：从 SFT 到 PPO（再瞥一眼 DPO）
  - 1. 奖励模型 RM：学会「打分」
  - 2. PPO：带约束的策略更新
  - 3. 工程师视角的一句话
- 明日预告