前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【前沿速递】17所高校32位作者联合综述最新技术:RLHF 的开放问题和技术限制(34页)

【前沿速递】17所高校32位作者联合综述最新技术:RLHF 的开放问题和技术限制(34页)

作者头像
深度强化学习实验室
发布2023-08-18 12:31:41
3870
发布2023-08-18 12:31:41
举报
排版|OpenDeepRL
【导读】根据人类反馈进行强化学习 (RLHF) 是一种训练人工智能系统使其与人类目标保持一致的技术。RLHF 已成为用于微调最先进的大型语言模型 (LLM) 的核心方法。尽管很受欢迎,但系统化其缺陷的公共工作却相对较少。在本文中,我们(1)调查了 RLHF 及相关方法的开放问题和基本局限性;(2) 概述在实践中理解、改进和补充 RLHF 的技术;(3) 提出审计和披露标准,以改善 RLHF 系统的社会监督。我们的工作强调了 RLHF 的局限性,并强调了采用多方面方法来开发更安全的人工智能系统的重要性。

来自人类反馈的强化学习(RLHF)已成为一种重要的技术,使机器学习模型适应难以指定的目标。特别是,RLHF 是训练最先进的大型语言模型(LLM)的关键组成部分,例如 OpenAI 的 GPT-4、Anthropic 的 Claude 、Google 的 Bard,以及 Meta 的 Llama 2-Chat。RLHF 和类似的方法使法学硕士不仅可以对其训练数据的分布进行建模,还可以调整文本的分布,以便人类评估者对模型输出给予更高的评价。我们使用 RLHF 来指代结合了三个相互关联的过程的方法:反馈收集、奖励建模和策略优化。图 1(上)说明了此设置。反馈过程引起人类对模型输出的评估。奖励建模过程使用监督学习来训练模仿这些评估的奖励模型。策略优化过程优化人工智能系统,以产生从奖励模型中获得有利评估的输出。当效果良好时,与演示、手动设计的奖励函数或其他指定或学习奖励的方法相比,RLHF 可以相对轻松地识别“良好”行为。RLHF 的根源在于经济学的显示偏好理论。显示偏好理论形式化了这样一种想法,即人们可以从演员的行为中了解他们的目标。它很早就被机器学习领域采用,用于人机交互和强化学习的应用。今天使用的 RLHF 标准方法由 Christiano 等人于 2017 年推广。[2017],它在引导深度强化学习社区对基于反馈的方法的关注方面发挥了关键作用。RLHF 已成为部署前微调 LLM 的主要策略,目标是生成符合人类目标的安全模型。尽管如此,使用 RLHF 进行微调的部署模型还是暴露了敏感的私人信息,幻觉的不真实内容 。传播有利于特定政治意识形态的偏见,表现出阿谀奉承的反应,并表达了不良偏好(例如,不想成为 关闭)。RLHF 也没有使模型能够抵御越狱(即颠覆系统通常运行的约束)或即时注入/提取的对抗性攻击。研究和产品团队都知道其中许多缺点,但很少有公共工作将 RLHF 的问题正式系统化。在本文中,我们调查了 RLHF 面临的挑战,以促进行业从业者的常识并确定进一步研究的开放问题。我们主要关注法学硕士的申请。我们做出三项贡献:

论文地址

https://arxiv.org/pdf/2307.15217.pdf

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2023-08-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 深度强化学习实验室 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 【导读】根据人类反馈进行强化学习 (RLHF) 是一种训练人工智能系统使其与人类目标保持一致的技术。RLHF 已成为用于微调最先进的大型语言模型 (LLM) 的核心方法。尽管很受欢迎,但系统化其缺陷的公共工作却相对较少。在本文中,我们(1)调查了 RLHF 及相关方法的开放问题和基本局限性;(2) 概述在实践中理解、改进和补充 RLHF 的技术;(3) 提出审计和披露标准,以改善 RLHF 系统的社会监督。我们的工作强调了 RLHF 的局限性,并强调了采用多方面方法来开发更安全的人工智能系统的重要性。
相关产品与服务
腾讯云小微
腾讯云小微,是一套腾讯云的智能服务系统,也是一个智能服务开放平台,接入小微的硬件可以快速具备听觉和视觉感知能力,帮助智能硬件厂商实现语音人机互动和音视频服务能力。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档