首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
首页标签强化学习

#强化学习

强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。

Llama 3 开启规模游戏的下一篇章

莫尔索

对于基础模型,我们通过检查 MMLU、MATH、GPQA 和 BBH 等指标来衡量高级知识和推理能力,排行榜如下:

000

【综述专栏】图强化学习在组合优化中的应用

马上科普尚尚

在科学研究中,从方法论上来讲,都应“先见森林,再见树木”。当前,人工智能学术研究方兴未艾,技术迅猛发展,可谓万木争荣,日新月异。对于AI从业者来说,在广袤的知识...

10710

Science Robotics封面!DeepMind强化学习打造超一流机器人球员

新智元

【新智元导读】双足机器人运动技能突破!谷歌DeepMind创新深度强化学习框架,赋能仿人机器人全身控制,征战足球赛场。机器人展现惊人动态技能,跌倒自恢复,战术防...

14610

「大模型+强化学习」最新综述!港中文深圳130余篇论文:详解四条主流技术路线

新智元

在此背景下,LLM可以提高强化学习在例如多任务学习、样本利用率、任务规划等方面的能力,帮助提高强化学习在复杂应用下的学习表现,例如自然语言指令跟随、谈判、自动驾...

18110

港大张清鹏团队提出个性化癌症治疗新思路:用 AI 控制癌细胞进化过程

AI科技评论

确认了强化学习算法后,需要构建强化学习环境,研究人员基于tM-GLV模型构建了PCaC环境,包含肿瘤的连续状态空间,药物控制动作,以及即时反馈(奖励函数)。因此...

11410

每日论文速递 | RLRF: 从反思反馈中不断迭代进行强化学习对齐

zenRRan

摘要:尽管 RLHF 在使 LLM 与人类偏好相一致方面大有可为,但它往往会导致表面上的一致,优先考虑风格上的变化,而不是改善 LLM 的下游性能。不明确的偏好...

16310

强化学习第十三篇:使用深度学习解决迷宫问题,完整步骤和代码

double

前面强化学习推送到第十二篇,迷宫问题已使用Q-learning解决过,今天使用另一种方法:深度Q网络,简称DQN网络解决。

21910

探讨ChatGPT的强化学习:AI学习与交互的未来

猫头虎

本文探讨了ChatGPT的强化学习应用与其对AI学习与交互的未来影响。引言部分介绍了人工智能、自然语言处理和GPT系列模型的概念,引出了ChatGPT作为最新版...

12410

英伟达通用人形机器人平台技术介绍

用户7353950

最近,英伟达(NVIDIA)推出的通用人形机器人平台,特别是其“人形机器人通用基础模型Project GR00T,结合了多种先进的人工智能技术和硬件支持,旨在为...

6510

探索Python中的强化学习:DQN

人类群星闪耀时

强化学习是一种机器学习方法,用于训练智能体(agent)在与环境的交互中学习如何做出最优决策。DQN(Deep Q-Network)是强化学习中的一种基于深度神...

10110

探索Python中的强化学习:SARSA

人类群星闪耀时

强化学习是一种机器学习方法,用于训练智能体(agent)在与环境的交互中学习如何做出最优决策。SARSA是强化学习中的一种基于状态-行动-奖励-下一个状态的方法...

8010

探索Python中的强化学习:Q-learning

人类群星闪耀时

强化学习是一种机器学习方法,用于训练智能体(agent)在与环境的交互中学习如何做出最优决策。Q-learning是强化学习中的一种基于价值函数的方法,用于学习...

13710

Parrot:用于文本到图像生成的帕累托最优多奖励强化学习框架

用户1324186

上海交通大学 · 研究员 (已认证)

最近的工作表明,使用具有质量奖励的强化学习(RL)可以提高文本到图像(T2I)生成中生成图像的质量。然而,多个奖励的简单聚合可能会导致某些指标的过度优化和其他指...

13410

每日论文速递 | 通过Token-level的Feedback进行强化学习控制文本生成

zenRRan

摘要:为了满足实际应用的要求,控制大型语言模型(LLM)的生成至关重要。之前的研究试图将强化学习(RL)引入可控文本生成,而大多数现有方法都存在过拟合问题(基于...

13810

"揭秘AI未来:强化学习之父Richard Sutton的AGI革命性路径大公开!"

朱晓霞

在人工智能的广阔天地中,强化学习作为连接理论与实践的重要桥梁,一直备受瞩目。Richard Sutton,这位被誉为“强化学习之父”的学者,以其深邃的见解和开创...

14610

每日论文速递 | TeaMs-RL: 通过强化学习让LLM自己学会更好的指令

zenRRan

摘要:大语言模型(LLM)的开发经常面临挑战,这些挑战源于强化学习与人类反馈(RLHF)框架中对人类注释者的严重依赖,或与自我指导范式相关的频繁而昂贵的外部查询...

14610

每日论文速递 | 使用对比Reward改进RLHF

zenRRan

摘要:来自人类反馈的强化学习(RLHF)是将大语言模型(LLM)与人类偏好相匹配的主流范式。然而,现有的 RLHF 在很大程度上依赖于准确、翔实的奖励模型,而奖...

15010

刷榜「代码生成」任务!复旦等发布StepCoder框架:从编译器反馈信号中强化学习

新智元

【新智元导读】StepCoder将长序列代码生成任务分解为代码完成子任务课程来缓解强化学习探索难题,对未执行的代码段以细粒度优化;还开源了可用于强化学习训练的A...

9610

提前 300 毫秒预测等离子体撕裂风险,普林斯顿大学发布 AI Controller

HyperAI超神经

普林斯顿大学的研究人员开发了一个 AI 控制器,能够提前 300 毫秒预测到等离子体的潜在撕裂风险并及时干预。

8010

MADQN:多代理合作强化学习

deephub

处理单一任务是强化学习的基础,它的目标是在不确定的环境中采取最佳行动,产生相对于任务的最大长期回报。但是在多代理强化学习中,因为存在多个代理,所以代理之间的关系...

11310
领券