笔者翻译上图如下:
阶段 | 子阶段 | 目标 | 备注 |
---|---|---|---|
Pre-Training | -------- | 语言建模 | |
Instruction Finetuning | --------- | 让模型能够理解自然语言指令 | |
RLHF | Reward Modeling | 奖励建模,用来代替人工打分,降低标注成本 | 奖励模型是用来建模强化学习的一个组件 |
RLHF | Reinforcement Learning | 强化学习建模,通过强化学习的方式训练模型输出奖励最大的文本,即更符合人类偏好的文本 |
强化学习建模过程如下:
进入
后的文本
。
注:
图源:cs224n-2023-lecture11-prompting-rlhf.pdf