前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >ChatGPT训练流程

ChatGPT训练流程

作者头像
Steve Wang
发布2023-10-12 09:38:55
2140
发布2023-10-12 09:38:55
举报
文章被收录于专栏:从流域到海域

图源:State of GPT - Microsoft Build

在这里插入图片描述
在这里插入图片描述

笔者翻译上图如下:

请添加图片描述
请添加图片描述

阶段

子阶段

目标

备注

Pre-Training

--------

语言建模

Instruction Finetuning

---------

让模型能够理解自然语言指令

RLHF

Reward Modeling

奖励建模,用来代替人工打分,降低标注成本

奖励模型是用来建模强化学习的一个组件

RLHF

Reinforcement Learning

强化学习建模,通过强化学习的方式训练模型输出奖励最大的文本,即更符合人类偏好的文本

强化学习建模过程如下:

  1. 将指令精调后的大语言模型作为Agent,agent的action即给定输入文本
i

进入

State
S_i

后的文本

Output_i

  • 所有可能输入的文本构成了agent的状态空间
  • 所有可能输出的文本构成了agent的动作空间
  1. 奖励模型作为Environment对模型输出进行打分,将分数作为奖励。

注:

  1. 二元分类说法并不准确,原始目标是希望对两个生成的回复进行打分即两者之间按更符合人类预期进行比较,胜出的回复应该得到更多的分数,亦即获得更大的奖励。或者也可以认为是在两者之间做分类,将更符合人类预期的筛选出来,但前者是更加准确的描述。
在这里插入图片描述
在这里插入图片描述

图源:cs224n-2023-lecture11-prompting-rlhf.pdf

  1. 奖励模型是用来实现强化学习的一个辅助模型,可以理解为强化学习建模中的环境(Environment)
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2023-07-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档