强化学习 - 标签 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

首页标签强化学习

#强化学习

强化学习是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。

LLM 系列（五）：模型训练篇

磊叔的技术博客 1天前2025-07-02 19:17:30

本文将从技术原理、实践方法、挑战难点等多个维度，全面解析LLM模型训练的核心技术。不仅会深入探讨传统的预训练和微调技术，还会重点分析最新的强化学习训练方法，特别...

4510

多智能体协作不再"翻车"！新型安全强化学习算法

一点人工一点智能 1天前2025-07-02 17:44:57

项目链接：https://mit-realm.github.io/def-marl/

3400

SuperCLUE推理榜惊现黑马：原来中兴是一家AI公司？

机器之心 1天前2025-07-02 10:29:23

前段时间，中文大模型测评基准 SuperCLUE 发布了 2025 年 5 月报告。这份报告评估了来自 OpenAI、谷歌、DeepSeek、字节跳动等多家国内...

7610

强化学习也能预训练？效果可提升20倍，华人新作引爆RL新范式!

新智元 4天前2025-06-30 08:26:45

HILP和FB均基于演员-评论家框架，通过完全无监督的强化学习目标来捕获意图；相比之下，新方法仅需在相邻状态转移上训练基于隐变量模型的意图编码器，无需依赖复杂的...

6600

【DRL】不同深度强化学习方法的特点和对比

小锋学长生活大爆炸 5天前2025-06-28 14:24:10

探索 vs. 利用（Exploration vs. Exploitation）策略差异

10810

重磅！淘天联合爱橙开源强化学习训练框架ROLL，高效支持十亿到千亿参数大模型训练

机器之心 7天前2025-06-26 09:43:11

过去几年，随着基于人类偏好的强化学习（Reinforcement Learning from Human Feedback，RLHF）的兴起，强化学习（Rein...

17410

合成数据>人工数据，绝对性能暴涨超10个点！仅需任务定义，高效微调大模型

新智元 9天前2025-06-25 08:53:54

尽管如GPT-4和Gemini等基础模型已在通用语言理解方面设立了新的行业标杆，但它们在需要深度领域知识的专业领域中，其表现常常不尽如人意。

8200

强化学习理论篇

liddytang 8天前2025-06-25 14:38:24

强化学习在DeepSeek-V3发挥了关键作用，现阶段LLM的发展已经离不开强化学习这一核心技术了，从大模型对齐到推理模型训练再到如今的智能体强化学习（Age...

32510

华师大第 43 期研究生学术沙龙

用户10675374 10天前2025-06-23 12:50:04

基于模型的强化学习（Model-Based Reinforcement Learning, MBRL）。首先，上述理论都是为了建树免模型强化学习。无模型强化学...

6700

5年白领下岗，AGI靠RL一飞冲天？网友：这是让狗学会打麻将！

新智元 10天前2025-06-23 11:14:16

他认为在LLM中，强化学习确实已经取得突破，而之后还有三个值得探索的方向：Scaling强化学习、稀疏奖励和持续学习。

5200

英伟达笑到最后！训练2000步，1.5B逆袭7B巨兽，Scaling真来了

新智元 10天前2025-06-23 11:12:53

并且，它通过跨领域训练数据，包括数学、代码、STEM、谜题、指令遵循，实现了泛化能力。

6910

从RLHF、PPO到GRPO再训练推理模型，这是你需要的强化学习入门指南

机器之心 10天前2025-06-23 11:07:15

强化学习（RL）已经成为当今 LLM 不可或缺的技术之一。从大模型对齐到推理模型训练再到如今的智能体强化学习（Agentic RL），你几乎能在当今 AI 领域...

44910

「摸鱼」被踢，GPT-4o真不行！30天筹款破万，AI真人秀太上头

新智元 15天前2025-06-19 09:03:45

就像一个在不断刷「运营经验值」的打工AI，背后很可能跑着强化学习算法或者在线学习机制，让它越干越聪明。

8710

LLM 为什么需要 RLHF

AI浩 16天前2025-06-17 09:56:28

大型语言模型（LLM）的训练流程通常分为预训练（Pre-training）和后训练（Post-training）两个核心阶段。在后训练阶段，监督微调（SFT...

21010

【DRL】最简单的策略梯度(Policy Gradient)算法

小锋学长生活大爆炸 17天前2025-06-16 22:02:16

该代码是策略梯度（Policy Gradient）方法最简实现，采样一批episode，计算每步动作的对数概率乘以整条轨迹的总奖励，作为损失函数优化策略网络，实...

14900

【DRL】强化学习中的概念和术语

小锋学长生活大爆炸 17天前2025-06-16 22:01:21

深度强化学习（Deep Reinforcement Learning, DRL）是强化学习（RL）与深度学习（DL）的交叉领域，其核心在于利用深度学习的表征能力...

18300

复旦大学/上海创智学院邱锡鹏：Context Scaling，通往AGI的下一幕

机器之心 17天前2025-06-16 11:27:31

2024 年底，Ilya Sutskever 断言「我们所知的预训练时代即将终结」，让整个人工智能领域陷入对 Scaling What 的集体追问之中。

13610

LLM已能自我更新权重，自适应、知识整合能力大幅提升，AI醒了？

机器之心 18天前2025-06-15 10:40:32

本月初我们就曾梳理报道了一些，包括 Sakana AI 与不列颠哥伦比亚大学等机构合作的「达尔文-哥德尔机（DGM）」、CMU 的「自我奖励训练（SRT）」、上...

14810

通义实验室最新成果WebDancer：开启自主智能Deep Research的新时代

机器之心 20天前2025-06-13 12:41:30

强化学习阶段的高计算成本和时间开销一直是开放环境训练的一大难题。WebDancer 通过优化算法和硬件资源的高效利用，显著降低了强化学习的成本。具体来说，Web...

15910

一个超强的推理增强大模型,开源了,本地部署

Ai学习的老章 21天前2025-06-12 12:53:44

Mistral 公司推出了首个推理模型 Magistral 及自研可扩展强化学习 (RL) 流程。团队采用自下而上的方法，完全基于自有模型和基础设施构建，不依赖...

17510

#强化学习

LLM 系列（五）：模型训练篇

多智能体协作不再"翻车"！新型安全强化学习算法

SuperCLUE推理榜惊现黑马：原来中兴是一家AI公司？

强化学习也能预训练？效果可提升20倍，华人新作引爆RL新范式!

【DRL】不同深度强化学习方法的特点和对比

重磅！淘天联合爱橙开源强化学习训练框架ROLL，高效支持十亿到千亿参数大模型训练

合成数据>人工数据，绝对性能暴涨超10个点！仅需任务定义，高效微调大模型

强化学习理论篇

华师大第 43 期研究生学术沙龙

5年白领下岗，AGI靠RL一飞冲天？网友：这是让狗学会打麻将！

英伟达笑到最后！训练2000步，1.5B逆袭7B巨兽，Scaling真来了

从RLHF、PPO到GRPO再训练推理模型，这是你需要的强化学习入门指南

「摸鱼」被踢，GPT-4o真不行！30天筹款破万，AI真人秀太上头

LLM 为什么需要 RLHF

【DRL】最简单的策略梯度(Policy Gradient)算法

【DRL】强化学习中的概念和术语

复旦大学/上海创智学院邱锡鹏：Context Scaling，通往AGI的下一幕

LLM已能自我更新权重，自适应、知识整合能力大幅提升，AI醒了？

通义实验室最新成果WebDancer：开启自主智能Deep Research的新时代

一个超强的推理增强大模型,开源了,本地部署

热门专栏

刘笑江的专栏

腾讯云开发者社区头条

ArrayZoneYour的专栏

WeTest质量开放平台团队的专栏

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

#强化学习

LLM 系列（五）：模型训练篇

多智能体协作不再&quot;翻车&quot;！新型安全强化学习算法

SuperCLUE推理榜惊现黑马：原来中兴是一家AI公司？

强化学习也能预训练？效果可提升20倍，华人新作引爆RL新范式!

【DRL】不同深度强化学习方法的特点和对比

重磅！淘天联合爱橙开源强化学习训练框架ROLL，高效支持十亿到千亿参数大模型训练

合成数据&gt;人工数据，绝对性能暴涨超10个点！仅需任务定义，高效微调大模型

强化学习理论篇

华师大第 43 期研究生学术沙龙

5年白领下岗，AGI靠RL一飞冲天？网友：这是让狗学会打麻将！

英伟达笑到最后！训练2000步，1.5B逆袭7B巨兽，Scaling真来了

从RLHF、PPO到GRPO再训练推理模型，这是你需要的强化学习入门指南

「摸鱼」被踢，GPT-4o真不行！30天筹款破万，AI真人秀太上头

LLM 为什么需要 RLHF

【DRL】最简单的策略梯度(Policy Gradient)算法

【DRL】强化学习中的概念和术语

复旦大学/上海创智学院邱锡鹏：Context Scaling，通往AGI的下一幕

LLM已能自我更新权重，自适应、知识整合能力大幅提升，AI醒了？

通义实验室最新成果WebDancer：开启自主智能Deep Research的新时代

一个超强的推理增强大模型,开源了,本地部署

刘笑江的专栏

腾讯云开发者社区头条

ArrayZoneYour的专栏

WeTest质量开放平台团队的专栏

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

多智能体协作不再"翻车"！新型安全强化学习算法

合成数据>人工数据，绝对性能暴涨超10个点！仅需任务定义，高效微调大模型