首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Day6 学习日志:从架构细节到对齐

Day6 学习日志:从架构细节到对齐

作者头像
小小猪排画中游
发布2026-06-17 08:32:21
发布2026-06-17 08:32:21
680
举报

Day6 学习日志:从架构细节到对齐

日期:2026-03-20 定位:在 Day5「参数量账本」之上,补齐训练/推理中的关键机制与对齐链路。


一、昨日回顾(Day5 要点)

昨天(2026-03-19)把 GPT-3 约 175B 从矩阵维度「算清楚」了,核心是:

要点

内容

配置

,96 层 Decoder,96 头,

单层公式

约 :Attention 占约 1/3(),FFN 占约 2/3(升维 4× 再降回)

总量级

单层 亿 × 96 层 + Embedding 175B

直觉

Attention 管「谁和谁相关」,FFN 管「记什么」;FP16 下仅权重就约 350GB 量级

顺带

点乘与 、Q/K 维对齐、预训练 → SFT → 偏好对齐的大致生命周期

今天在此基础上,往 更细的工程机制(归一化、缩放、词表头、采样)和 对齐后半段(RM、PPO、DPO 趋势)下沉一层。


二、今日精读:架构里的「呼吸与温控」

1. Add & Norm:深层网络能训稳的底线

  • 残差 Add:。相当于给梯度留「高速公路」——即便当前子层 学得不好,信号 仍能直通,缓解深层 梯度消失
  • Layer Norm:把激活拉回稳定尺度,避免连乘后数值爆炸或塌缩,训练更稳。

二者常被说成 Transformer 块的「呼吸与温控」:残差保通路,Norm 保数值秩序。

2. :Softmax 前的「贫富调节」

  • • 点积随维度变大容易整体偏大,Softmax 会极度尖锐(几乎 one-hot),梯度在少数位置上饱和,模型难以学到「多种合理关注」。
  • • 除以 把点积尺度拉回与维度无关的量级,让 Softmax 更平滑,保留可调空间,也更有「创造性」的余地(相对极端尖峰而言)。

三、今日精读:模型如何「开口说话」

1. Linear Head:从隐向量到词表

  • • 最后一层输出的是 维语义向量,不是某个汉字/ token。
  • 词表投影矩阵(量级上 ,如 GPT-3 里与 50257 类词表对齐)把该向量与 全词表「原型向量」 做匹配,得到每个词的 logits(未归一化分数)。

2. 采样:同一 logits,不同「性格」

  • Top-K / Top-P:不永远只取 argmax,而是在高分子集里再随机,输出更丰富。
  • Temperature:温度高 → 分布更平 → 低概率 token 更容易被采到,更发散、更有梗;温度低 → 更保守、更像「标准答案」。

应用侧调 API 时,temperature、top_p 就是在动这一层概率几何。


四、今日精读:从 SFT 到 PPO(再瞥一眼 DPO)

1. 奖励模型 RM:学会「打分」

  • • 在 SFT 模型 backbone 上换头或加头,用 人类排序(如回答 A 优于 B)训练,使 好回答分数高于差回答(拉大 )。
  • • RM 本身不直接生成文本,是给策略模型提供 标量反馈信号

2. PPO:带约束的策略更新

  • 思路:策略(SFT 后的模型)在生成时「试探」,根据 RM 的回报调整参数。
  • Advantage:若本次生成比基线更好,就加强这条轨迹;反之弱化。
  • KL 惩罚:限制新策略相对参考模型(常为 SFT checkpoint)别飘太远,避免为刷分而产生怪异、不安全或分布外文本。

PPO 效果好但 重、难调;工业界不少场景在往 DPO(直接偏好优化) 等更简洁的对齐方法迁移。

3. 工程师视角的一句话

模型本质是在 高维空间里重排概率;参数要 能训稳、能对齐 才有用。做应用时,注意力 、KV Cache、上下文长度对 延迟和账单 的影响,往往比多背一个公式更紧迫。


明日预告

开启 AI 应用实战方向:RAG 架构Function Calling

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-03-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 猪排AI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Day6 学习日志:从架构细节到对齐
    • 一、昨日回顾(Day5 要点)
    • 二、今日精读:架构里的「呼吸与温控」
      • 1. Add & Norm:深层网络能训稳的底线
      • 2. :Softmax 前的「贫富调节」
    • 三、今日精读:模型如何「开口说话」
      • 1. Linear Head:从隐向量到词表
      • 2. 采样:同一 logits,不同「性格」
    • 四、今日精读:从 SFT 到 PPO(再瞥一眼 DPO)
      • 1. 奖励模型 RM:学会「打分」
      • 2. PPO:带约束的策略更新
      • 3. 工程师视角的一句话
    • 明日预告
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档