首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

每日论文速递 | [NeurIPS'23 Oral] DPO:Language Model 是一个 Reward Model

摘要:虽然大规模无监督语言模型(LMs)可以学习广泛的世界知识和一些推理技能,但由于其训练完全不受监督,因此很难实现对其行为的精确控制。获得这种可控性的现有方法通常是通过人类反馈强化学习(RLHF),收集人类对各代模型相对质量的标签,并根据这些偏好对无监督语言模型进行微调。然而,RLHF 是一个复杂且经常不稳定的过程,首先要拟合一个反映人类偏好的奖励模型,然后利用强化学习对大型无监督 LM 进行微调,以最大限度地提高估计奖励,同时不会偏离原始模型太远。在本文中,我们介绍了 RLHF 中奖励模型的一种新参数化方法,它能以封闭形式提取相应的最优策略,使我们只需简单的分类损失就能解决标准的 RLHF 问题。由此产生的算法我们称之为直接偏好优化(DPO),它稳定、性能好、计算量小,在微调过程中无需从 LM 中采样,也无需进行大量的超参数调整。我们的实验表明,DPO 可以对 LM 进行微调,使其与人类偏好保持一致,甚至优于现有方法。值得注意的是,使用 DPO 进行的微调在控制代际情感的能力上超过了基于 PPO 的 RLHF,并且在总结和单轮对话中达到或提高了响应质量,同时在实现和训练方面也要简单得多。

01

每日论文速递 | Google提出PERL:将PEFT与RLHF结合起来

摘要:从人类反馈中强化学习(RLHF)已被证明是将预训练的大型语言模型(LLM)与人类偏好相匹配的有效方法。但是,使用 RLHF 训练模型的计算成本很高,而且整个过程也很复杂。在这项工作中,我们研究的 RLHF 是使用 Hu 等人[2021]提出的参数高效的低库自适应(Low-Rank Adaptation,LoRA)方法来训练底层模型的。我们研究了 "参数高效强化学习"(PERL)的设置,其中我们使用 LoRA 进行奖励模型训练和强化学习。我们比较了 PERL 和传统微调(完全微调)在 7 个基准(包括 2 个奖励建模和强化学习的新数据集)中的不同配置。我们发现,PERL 的性能与传统的 RLHF 设置相当,同时训练速度更快,占用内存更少。这使得 RLHF 的高性能得以实现,同时减少了限制其作为大型语言模型对齐技术的采用的计算负担。我们还发布了两个新颖的向上/向下偏好数据集:"Taskmaster Coffee "和 "Taskmaster Ticketing",以促进围绕 RLHF 的研究。

01

一起玩转微服务(9)——前后端分离

在传统的web应用开发中,大多数的程序员会将浏览器作为前后端的分界线。将浏览器中为用户进行页面展示的部分称之为前端,而将运行在服务器,为前端提供业务逻辑和数据准备的所有代码统称为后端。 由于前后端分离这个概念相对来说刚出现不久,很多人都是只闻其声,不见其形,所以可能会对它产生一些误解,误以为前后端分离只是一种web应用开发模式,只要在web应用的开发期进行了前后端开发工作的分工就是前后端分离。 其实前后端分离并不只是开发模式,而是web应用的一种架构模式。在开发阶段,前后端工程师约定好数据交互接口,实现并行开发和测试;在运行阶段前后端分离模式需要对web应用进行分离部署,前后端之前使用HTTP或者其他协议进行交互请求。 前后端分离原则,简单来讲就是前端和后端的代码分离也就是技术上做分离。推荐的模式是最好直接采用物理分离的方式部署,进一步促使进行更彻底的分离。不要继续以前的服务端模板技术,比如JSP ,把Java JS HTML CSS 都堆到一个页面里,稍复杂的页面就无法维护。

02
领券