首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

每日论文速递 | RLRF: 从反思反馈中不断迭代进行强化学习对齐

摘要:尽管 RLHF 在使 LLM 与人类偏好相一致方面大有可为,但它往往会导致表面上的一致,优先考虑风格上的变化,而不是改善 LLM 的下游性能。不明确的偏好可能会模糊调整模型的方向。缺乏探索会限制识别理想输出以改进模型。为了克服这些挑战,我们提出了一个新颖的框架:从反思反馈中强化学习Reinforcement Learning from Reflective Feedback (RLRF),它利用基于详细标准的细粒度反馈来提高 LLM 的核心能力。RLRF 采用自我反思机制来系统地探索和完善 LLM 的反应,然后通过 RL 算法对模型进行微调,同时对有前途的反应进行微调。我们在 "公正-评价"、"事实性 "和 "数学推理 "方面的实验证明,RLRF 的功效和变革潜力超出了表面的调整。

01

每日论文速递 | NLP大佬们联合发文,倡导使用检索增强模型RA-LMs

摘要:参数化语言模型(LMs)通过在大量网络数据上进行训练,展现出了显著的灵活性和能力。然而,它们仍然面临着诸如幻觉、难以适应新数据分布以及缺乏可验证性等实际挑战。在这篇立场论文中,我们主张将检索增强型LMs作为下一代LMs取代参数化LMs。通过在推理过程中结合大规模数据存储,检索增强型LMs可以更加可靠、适应性强,并且具有可归因性。尽管具有潜力,但检索增强型LMs由于几个障碍尚未被广泛采用:具体来说,当前的检索增强型LMs在超出知识密集型任务(如问答)的文本利用方面遇到困难,检索和LM组件之间的互动有限,缺乏用于扩展的基础设施。为了解决这些问题,我们提出了开发通用检索增强型LMs的路线图。这涉及重新考虑数据存储和检索器,探索具有改进的检索器-LM交互的流水线,并且在高效训练和推理的基础设施上进行重大投资。

01
领券