强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。
过去两年,我们已经习惯了一种叙事:参数更多、数据更大、算力更猛,分数就更高。可越来越多人开始感到一种 "边际疲劳" ——继续把单个模型做大的回报,正变得既昂贵又...
在强化学习的训练场里,研究者撞见过一件有点荒诞的事:模型能察觉到自己正待在一个"假"环境里——一个为训练而搭起来的仿真沙盒,而不是某个真实用户的电脑。一旦识破,...
这种“堆料”式的建模方式,正在成为限制 Agent 规模化应用的死胡同。近日,来自北京邮电大学、中国移动和新加坡管理大学的研究团队提出了一种名为 STEP-HR...
当前大模型的基于可验证奖励的强化学习 (RLVR)(如 GRPO/GSPO)面临的最大痛点,是极其昂贵的 on-policy(同策略)采样和验证成本。假设你正在...
近年来,多模态大模型(如GPT-4V、Gemini等)的能力令人惊叹。它们能“看懂”图片,描述内容,甚至进行一些简单的推理。但如果你让它们处理一些真正考验“眼力...
然而,当我们尝试使用强化学习(RL)——这种让AI通过“试错”来学习的强大范式——去训练一个能够进行多轮次工具交互的智能体时,常常会遇到一个令人头疼的“拦路虎”...
这意味着,如果要通过强化学习(RL)让Agent训练成千上万次来掌握技能,我们将面临天文数字般的时间成本。这正是当前Agentic AI发展中“卡脖子”的难题。
在大语言模型(LLM)的领域里,我们常常陷入一种直觉性的迷思:模型思考得越“久”,生成的答案越长,似乎就代表着更深度的推理和更高的准确性。这种现象被称为 “长度...
今天,分享一篇极具潜力的前沿研究——来自微软研究院的论文《Agent Lightning: Train ANY AI Agents with Reinforce...
今天,我们要聊一个非常热门且棘手的话题:如何让AI更好地理解那些充斥着图表、表格和复杂布局的“富视觉”文档?
如果你关注AI的进展,一定对RLHF(人类反馈强化学习)或RLAIF(AI反馈强化学习)这些名词不陌生。它们是当前提升大模型(如GPT-o3、Claude 4、...
为此,业界主流做法是基于人类偏好反馈的强化学习(RLHF)。其基本逻辑是:模型生成两个回答,由人类标注者从中选出更优者,进而训练出一个奖励模型,以模拟人类的偏好...
#强化学习 #大模型LLM #大模型训练 #唐国梁Tommy #RL强化学习 #RLT强化学习 #强化学习教师 #AI前沿技术 #AIGC #AI论文解读
让大语言模型(LLM)像人类一样思考,解决复杂的数学和编程问题,是AI领域的前沿目标。强化学习(RL)是实现这一目标的主流技术,但它有个致命弱点:训练过程极不稳...
大语言模型(LLMs)在推理能力上取得了显著进展。从数学问题到逻辑推理,它们的表现越来越令人惊艳。我们看到了像OpenAI-o1、DeepSeek-R1 和 K...
今天跟大家分享一篇来自伊利诺伊大学香槟分校的最新研究论文。这篇论文揭示了大语言模型(LLMs)在使用强化学习(RL)进行微调时一个非常有趣且重要的现象,对我们理...
团队里(3-5人)大家都想出国交流,如何公平分配机会,既能薅足学术羊毛,又不让大家产生内部矛盾?
随着多模态大模型(MLLMs)在图文理解、数学解题、几何推理等任务上取得长足进步,可验证奖励的强化学习(RLVR)已成为提升其视觉推理能力的主流范式。然而,现有...
腾讯 | 开发工程师 (已认证)
前自动驾驶研发工程师:如果你在路上看到自动驾驶车辆,请尽量保持距离。现在的自动驾驶车辆看似从容,实则从未真正学会驾驶;城市高架上的流畅表现,本质上是对规则化环境...
很多 AI 分子生成研究往往停留在计算层面: 模型生成了一批分子,对接打分看起来不错,ADMET 预测也似乎可以,但这些分子是否能合成、是否有真实活性、是否安全...