首页
学习
活动
专区
圈层
工具
发布
首页标签强化学习

#强化学习

强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。

Sakana AI : 怎么把多个大模型"组队",让组合体打败任何单个模型?

唐国梁Tommy

过去两年,我们已经习惯了一种叙事:参数更多、数据更大、算力更猛,分数就更高。可越来越多人开始感到一种 "边际疲劳" ——继续把单个模型做大的回报,正变得既昂贵又...

9710

Cursor 训练 Composer 全过程:一个顶尖编程模型是怎么训出来的 ?

唐国梁Tommy

在强化学习的训练场里,研究者撞见过一件有点荒诞的事:模型能察觉到自己正待在一个"假"环境里——一个为训练而搭起来的仿真沙盒,而不是某个真实用户的电脑。一旦识破,...

10710

Agent为何“越跑越贵”?STEP-HRL引入层级强化学习,让大模型Agent瘦身又增效

唐国梁Tommy

这种“堆料”式的建模方式,正在成为限制 Agent 规模化应用的死胡同。近日,来自北京邮电大学、中国移动和新加坡管理大学的研究团队提出了一种名为 STEP-HR...

8410

为什么大模型 RL 还要各自孤独采样?RLVR 的跨模型经验重用方案

唐国梁Tommy

当前大模型的基于可验证奖励的强化学习 (RLVR)(如 GRPO/GSPO)面临的最大痛点,是极其昂贵的 on-policy(同策略)采样和验证成本。假设你正在...

11610

当多模态Agent学会“思考”与“动手”,视觉感知将如何进化?

唐国梁Tommy

近年来,多模态大模型(如GPT-4V、Gemini等)的能力令人惊叹。它们能“看懂”图片,描述内容,甚至进行一些简单的推理。但如果你让它们处理一些真正考验“眼力...

11110

SimpleTIR如何破解大模型多轮工具推理的“训练魔咒”?

唐国梁Tommy

然而,当我们尝试使用强化学习(RL)——这种让AI通过“试错”来学习的强大范式——去训练一个能够进行多轮次工具交互的智能体时,常常会遇到一个令人头疼的“拦路虎”...

7700

破解AI Agent训练瓶颈:蚂蚁集团如何将Agentic AI训练速度提升14.6倍?

唐国梁Tommy

这意味着,如果要通过强化学习(RL)让Agent训练成千上万次来掌握技能,我们将面临天文数字般的时间成本。这正是当前Agentic AI发展中“卡脖子”的难题。

11400

AI模型的“深思熟虑”与“快问快答”:不止于更长,更在于智慧

唐国梁Tommy

在大语言模型(LLM)的领域里,我们常常陷入一种直觉性的迷思:模型思考得越“久”,生成的答案越长,似乎就代表着更深度的推理和更高的准确性。这种现象被称为 “长度...

10900

微软发布 Agent Lightning,让强化学习无缝融入任何Agent

唐国梁Tommy

今天,分享一篇极具潜力的前沿研究——来自微软研究院的论文《Agent Lightning: Train ANY AI Agents with Reinforce...

12500

阿里VRAG-RL:当强化学习遇上多模态RAG,如何将模型性能提升30%?

唐国梁Tommy

今天,我们要聊一个非常热门且棘手的话题:如何让AI更好地理解那些充斥着图表、表格和复杂布局的“富视觉”文档?

9900

告别RL训练崩溃:阿里Qwen团队的GSPO算法,如何从根源上稳定大模型强化学习?

唐国梁Tommy

如果你关注AI的进展,一定对RLHF(人类反馈强化学习)或RLAIF(AI反馈强化学习)这些名词不陌生。它们是当前提升大模型(如GPT-o3、Claude 4、...

11800

Scale AI用“AI评分卡”重新定义强化学习,让模型对齐更透明

唐国梁Tommy

为此,业界主流做法是基于人类偏好反馈的强化学习(RLHF)。其基本逻辑是:模型生成两个回答,由人类标注者从中选出更优者,进而训练出一个奖励模型,以模拟人类的偏好...

11300

告别RL探索困境:「强化学习教师」重塑大模型推理(Reasoning)训练

唐国梁Tommy

#强化学习 #大模型LLM #大模型训练 #唐国梁Tommy #RL强化学习 #RLT强化学习 #强化学习教师 #AI前沿技术 #AIGC #AI论文解读

11500

深度解读Ring-lite:C3PO如何攻克强化学习不稳定性难题?

唐国梁Tommy

让大语言模型(LLM)像人类一样思考,解决复杂的数学和编程问题,是AI领域的前沿目标。强化学习(RL)是实现这一目标的主流技术,但它有个致命弱点:训练过程极不稳...

8300

RLVR:通过精选的单个样本实现大型语言模型推理的显著提升

唐国梁Tommy

大语言模型(LLMs)在推理能力上取得了显著进展。从数学问题到逻辑推理,它们的表现越来越令人惊艳。我们看到了像OpenAI-o1、DeepSeek-R1 和 K...

10100

RL与SFT的参数更新之谜:强化学习仅更新一小部分参数

唐国梁Tommy

今天跟大家分享一篇来自伊利诺伊大学香槟分校的最新研究论文。这篇论文揭示了大语言模型(LLMs)在使用强化学习(RL)进行微调时一个非常有趣且重要的现象,对我们理...

10110

【学术搞钱两不误】用图论与强化学习打造高效「学术活动排程器」(含Python源码)

math chen

团队里(3-5人)大家都想出国交流,如何公平分配机会,既能薅足学术羊毛,又不让大家产生内部矛盾?

3800

北京智源等提出DyCo-RL:动态跨模态协同学习让多模态大模型“看得准也想得清”

Amusi

随着多模态大模型(MLLMs)在图文理解、数学解题、几何推理等任务上取得长足进步,可验证奖励的强化学习(RLVR)已成为提升其视觉推理能力的主流范式。然而,现有...

10210

撕掉“L4/L5”的包装纸:万字长文还原自动驾驶真实的智能困境

jhonye

腾讯 | 开发工程师 (已认证)

前自动驾驶研发工程师:如果你在路上看到自动驾驶车辆,请尽量保持距离。现在的自动驾驶车辆看似从容,实则从未真正学会驾驶;城市高架上的流畅表现,本质上是对规则化环境...

21110

Sci. Adv. | AI 会取代药物化学家吗?一个完整药物发现案例给出了答案

DrugIntel

很多 AI 分子生成研究往往停留在计算层面: 模型生成了一批分子,对接打分看起来不错,ADMET 预测也似乎可以,但这些分子是否能合成、是否有真实活性、是否安全...

9210
领券