首页
学习
活动
专区
圈层
工具
发布
首页标签强化学习

#强化学习

强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。

107_DPO:直接偏好优化

安全风信子

在大型语言模型(LLM)的发展历程中,如何让模型输出与人类偏好保持一致一直是研究的核心挑战。从早期的监督微调(SFT)到基于人类反馈的强化学习(RLHF),再到...

4600

100_RLHF(人类反馈强化学习)原理与实践

安全风信子

要理解RLHF,首先需要了解强化学习(Reinforcement Learning, RL)的基本概念。强化学习是一种通过与环境互动来学习最优行为的机器学习范式...

4200

大模型强化学习的熵控制:CE-GPPO、EPO与AsyPPO技术方案对比详解

deephub

LLM的强化学习训练最近进展很快,SOTA模型在各种推理benchmark上的表现确实亮眼。但更值得关注的其实是另一条信息——从Rutgers到Alibaba再...

7710

REFRAG技术详解:如何通过压缩让RAG处理速度提升30倍

deephub

RAG(检索增强生成)现在基本成了处理长文档的标准流程,但是它问题也很明显:把检索到的所有文本段落统统塞进LLM,这样会导致token数量爆炸,处理速度慢不说,...

8110

打造自主学习的AI Agent:强化学习+LangGraph代码示例

deephub

AI Agent这个概念最近被炒得很热,从管理日程的语音助手到仓库里跑来跑去的机器人,大家都在谈论Agent的"自主性"。但是真正让Agent变得intelli...

6610

从DQN到Double DQN:分离动作选择与价值评估,解决强化学习中的Q值过估计问题

deephub

2015年DQN在Atari游戏上取得突破性进展,从此以后强化学习终于能处理复杂环境了,但没多久研究者就注意到一些奇怪的现象:

3910

Proximal SFT:用PPO强化学习机制优化SFT,让大模型训练更稳定

deephub

监督微调(SFT)基本上是现在训练大模型时必走的路。不管你要让模型干什么,先用 SFT 让它学会基本的指令跟随和对话能力,然后再通过 PPO 或者 GRPO 这...

5610

【强化学习】可证明安全强化学习(Provably Safe RL)算法详细介绍

不去幼儿园

安全强化学习(Safe RL)是强化学习(RL)的一个分支,它关注于在训练智能体时,确保其行为不违反预定的安全约束或规则。传统的强化学习方法侧重于最大化奖...

15010

强化学习中慢网络加速学习的技术突破

用户11764306

总体而言,我们的经验和理论结果支持这一主张:在深度强化学习中优化新解决方案时,优化器倾向于先前解决方案是有益的。更重要的是,我们看到深度强化学习优化的简单改进能...

10010

当视觉语言模型接收到相互矛盾的信息时,它会相信哪个信号?

CoovallyAIHub

近年来,视觉语言模型(VLMs)在多种任务上展现出了令人印象深刻的能力,它们能够同时理解图像和文本信息,完成复杂的推理任务。然而,当图像和文本信息相互矛盾时,这...

9210

强化学习探索策略的经验对比:从启发式到概率建模

一键难忘

在强化学习(Reinforcement Learning, RL)中,智能体(Agent)通过与环境的交互学习最优策略,其目标是在长期内最大化累积回报。然而,在...

11410

NeurIPS强化学习挑战赛冠军揭晓

用户11764306

竞赛是年度NeurIPS会议计划的重要组成部分。今年接受的16个竞赛中,有四分之一专注于推动深度强化学习的科学进展。近年来,强化学习在游戏、自动驾驶、电网管理等...

9410

在AI技术唾手可得的时代,挖掘新需求成为制胜关键——某知名AI智能体训练框架需求洞察

qife122

(1)需求1:用户希望提供更详细的Text2SQL基准测试评估分数,包括在Spider-dev、Spider-test集和BIRD基准上的执行准确率等详细指标对...

12110

基于结构信息原则的分层决策框架解析

用户11764306

分层强化学习(HRL)是一种有前景的方法,用于管理多个抽象层次上的任务复杂性并加速长视野智能体探索。然而,分层策略的有效性严重依赖于关于技能定义和任务分解的先验...

6410

计算机视觉遇见手绘图表,如何教会机器理解流程图?

CoovallyAIHub

本文讲解了将原始的手绘图表(比如白板照片、流程图、线框图)转换成结构化的、机器可读的 JSON。这事儿听起来简单,实践起来却复杂得惊人。本文将通过我的技术实践历...

7610

【强化学习】区分理解: 时序差分(TD)、蒙特卡洛(MC)、动态规划(DP)

不去幼儿园

在强化学习中,智能体需要通过与环境交互,逐步学习如何最大化长期回报。常见的两类方法是:

17510

AAAI 2022斯坦福AI实验室研究成果精选

用户11764306

第36届人工智能大会(AAAI 2022)于2月22日至3月1日以线上形式举行。我们很高兴展示斯坦福AI实验室在此次会议上发表的所有研究成果,以下提供论文、视频...

7110

深度学习进阶(五)——强化学习与决策智能:让模型学会行动

海棠未眠

在深度学习的发展历程中,卷积网络学会了「看」,Transformer 学会了「读」,而生成模型学会了「写」。 但智能的终极形态,不仅是理解与表达,还包括「行动...

37510

MIT推出SEAL框架:实现AI自我迭代新突破

用户11764306

自我编辑的生成通过强化学习实现。当生成的自我编辑应用后能提高目标任务性能时,模型会获得奖励。因此,SEAL可被概念化为具有两个嵌套循环的算法:外层的强化学习循环...

21010

机器人技术新前沿:自动驾驶路径规划算法解析

用户11764306

某中心子公司Zoox首席软件工程师Olivier Toupet致力于开发自动驾驶电动机器人出租车技术。他在某中心子公司Zoox的工作重点是为自动驾驶车辆开发尖端...

18610
领券