强化学习 - 标签 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

首页标签强化学习

#强化学习

强化学习是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。

LLM 系列（五）：模型训练篇

磊叔的技术博客 18小时前2025-07-02 19:17:30

大语言模型（Large Language Model, LLM）的训练是人工智能领域最复杂、最资源密集的任务之一。从2017年Transformer架构的提出，...

2110

多智能体协作不再"翻车"！新型安全强化学习算法

一点人工一点智能 20小时前2025-07-02 17:44:57

项目链接：https://mit-realm.github.io/def-marl/

1000

SuperCLUE推理榜惊现黑马：原来中兴是一家AI公司？

机器之心 1天前2025-07-02 10:29:23

前段时间，中文大模型测评基准 SuperCLUE 发布了 2025 年 5 月报告。这份报告评估了来自 OpenAI、谷歌、DeepSeek、字节跳动等多家国内...

3300

强化学习也能预训练？效果可提升20倍，华人新作引爆RL新范式!

新智元 3天前2025-06-30 08:26:45

HILP和FB均基于演员-评论家框架，通过完全无监督的强化学习目标来捕获意图；相比之下，新方法仅需在相邻状态转移上训练基于隐变量模型的意图编码器，无需依赖复杂的...

6500

【DRL】不同深度强化学习方法的特点和对比

小锋学长生活大爆炸 4天前2025-06-28 14:24:10

探索 vs. 利用（Exploration vs. Exploitation）策略差异

10010

重磅！淘天联合爱橙开源强化学习训练框架ROLL，高效支持十亿到千亿参数大模型训练

机器之心 7天前2025-06-26 09:43:11

过去几年，随着基于人类偏好的强化学习（Reinforcement Learning from Human Feedback，RLHF）的兴起，强化学习（Rein...

17010

合成数据>人工数据，绝对性能暴涨超10个点！仅需任务定义，高效微调大模型

新智元 8天前2025-06-25 08:53:54

尽管如GPT-4和Gemini等基础模型已在通用语言理解方面设立了新的行业标杆，但它们在需要深度领域知识的专业领域中，其表现常常不尽如人意。

8000

强化学习理论篇

liddytang 7天前2025-06-25 14:38:24

强化学习在DeepSeek-V3发挥了关键作用，现阶段LLM的发展已经离不开强化学习这一核心技术了，从大模型对齐到推理模型训练再到如今的智能体强化学习（Age...

31610

华师大第 43 期研究生学术沙龙

用户10675374 10天前2025-06-23 12:50:04

基于模型的强化学习（Model-Based Reinforcement Learning, MBRL）。首先，上述理论都是为了建树免模型强化学习。无模型强化学...

6600

5年白领下岗，AGI靠RL一飞冲天？网友：这是让狗学会打麻将！

新智元 10天前2025-06-23 11:14:16

他认为在LLM中，强化学习确实已经取得突破，而之后还有三个值得探索的方向：Scaling强化学习、稀疏奖励和持续学习。

5100

英伟达笑到最后！训练2000步，1.5B逆袭7B巨兽，Scaling真来了

新智元 10天前2025-06-23 11:12:53

并且，它通过跨领域训练数据，包括数学、代码、STEM、谜题、指令遵循，实现了泛化能力。

6910

从RLHF、PPO到GRPO再训练推理模型，这是你需要的强化学习入门指南

机器之心 10天前2025-06-23 11:07:15

强化学习（RL）已经成为当今 LLM 不可或缺的技术之一。从大模型对齐到推理模型训练再到如今的智能体强化学习（Agentic RL），你几乎能在当今 AI 领域...

42710

「摸鱼」被踢，GPT-4o真不行！30天筹款破万，AI真人秀太上头

新智元 14天前2025-06-19 09:03:45

就像一个在不断刷「运营经验值」的打工AI，背后很可能跑着强化学习算法或者在线学习机制，让它越干越聪明。

8710

LLM 为什么需要 RLHF

AI浩 16天前2025-06-17 09:56:28

大型语言模型（LLM）的训练流程通常分为预训练（Pre-training）和后训练（Post-training）两个核心阶段。在后训练阶段，监督微调（SFT...

20810

【DRL】最简单的策略梯度(Policy Gradient)算法

小锋学长生活大爆炸 16天前2025-06-16 22:02:16

该代码是策略梯度（Policy Gradient）方法最简实现，采样一批episode，计算每步动作的对数概率乘以整条轨迹的总奖励，作为损失函数优化策略网络，实...

14700

【DRL】强化学习中的概念和术语

小锋学长生活大爆炸 16天前2025-06-16 22:01:21

深度强化学习（Deep Reinforcement Learning, DRL）是强化学习（RL）与深度学习（DL）的交叉领域，其核心在于利用深度学习的表征能力...

18200

复旦大学/上海创智学院邱锡鹏：Context Scaling，通往AGI的下一幕

机器之心 17天前2025-06-16 11:27:31

2024 年底，Ilya Sutskever 断言「我们所知的预训练时代即将终结」，让整个人工智能领域陷入对 Scaling What 的集体追问之中。

13410

LLM已能自我更新权重，自适应、知识整合能力大幅提升，AI醒了？

机器之心 18天前2025-06-15 10:40:32

本月初我们就曾梳理报道了一些，包括 Sakana AI 与不列颠哥伦比亚大学等机构合作的「达尔文-哥德尔机（DGM）」、CMU 的「自我奖励训练（SRT）」、上...

14810

通义实验室最新成果WebDancer：开启自主智能Deep Research的新时代

机器之心 20天前2025-06-13 12:41:30

强化学习阶段的高计算成本和时间开销一直是开放环境训练的一大难题。WebDancer 通过优化算法和硬件资源的高效利用，显著降低了强化学习的成本。具体来说，Web...

15010

一个超强的推理增强大模型,开源了,本地部署

Ai学习的老章 21天前2025-06-12 12:53:44

Mistral 公司推出了首个推理模型 Magistral 及自研可扩展强化学习 (RL) 流程。团队采用自下而上的方法，完全基于自有模型和基础设施构建，不依赖...

17410

#强化学习

LLM 系列（五）：模型训练篇

多智能体协作不再"翻车"！新型安全强化学习算法

SuperCLUE推理榜惊现黑马：原来中兴是一家AI公司？

强化学习也能预训练？效果可提升20倍，华人新作引爆RL新范式!

【DRL】不同深度强化学习方法的特点和对比

重磅！淘天联合爱橙开源强化学习训练框架ROLL，高效支持十亿到千亿参数大模型训练

合成数据>人工数据，绝对性能暴涨超10个点！仅需任务定义，高效微调大模型

强化学习理论篇

华师大第 43 期研究生学术沙龙

5年白领下岗，AGI靠RL一飞冲天？网友：这是让狗学会打麻将！

英伟达笑到最后！训练2000步，1.5B逆袭7B巨兽，Scaling真来了

从RLHF、PPO到GRPO再训练推理模型，这是你需要的强化学习入门指南

「摸鱼」被踢，GPT-4o真不行！30天筹款破万，AI真人秀太上头

LLM 为什么需要 RLHF

【DRL】最简单的策略梯度(Policy Gradient)算法

【DRL】强化学习中的概念和术语

复旦大学/上海创智学院邱锡鹏：Context Scaling，通往AGI的下一幕

LLM已能自我更新权重，自适应、知识整合能力大幅提升，AI醒了？

通义实验室最新成果WebDancer：开启自主智能Deep Research的新时代

一个超强的推理增强大模型,开源了,本地部署

热门专栏

刘笑江的专栏

腾讯云开发者社区头条

ArrayZoneYour的专栏

WeTest质量开放平台团队的专栏

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

#强化学习

LLM 系列（五）：模型训练篇

多智能体协作不再&quot;翻车&quot;！新型安全强化学习算法

SuperCLUE推理榜惊现黑马：原来中兴是一家AI公司？

强化学习也能预训练？效果可提升20倍，华人新作引爆RL新范式!

【DRL】不同深度强化学习方法的特点和对比

重磅！淘天联合爱橙开源强化学习训练框架ROLL，高效支持十亿到千亿参数大模型训练

合成数据&gt;人工数据，绝对性能暴涨超10个点！仅需任务定义，高效微调大模型

强化学习理论篇

华师大第 43 期研究生学术沙龙

5年白领下岗，AGI靠RL一飞冲天？网友：这是让狗学会打麻将！

英伟达笑到最后！训练2000步，1.5B逆袭7B巨兽，Scaling真来了

从RLHF、PPO到GRPO再训练推理模型，这是你需要的强化学习入门指南

「摸鱼」被踢，GPT-4o真不行！30天筹款破万，AI真人秀太上头

LLM 为什么需要 RLHF

【DRL】最简单的策略梯度(Policy Gradient)算法

【DRL】强化学习中的概念和术语

复旦大学/上海创智学院邱锡鹏：Context Scaling，通往AGI的下一幕

LLM已能自我更新权重，自适应、知识整合能力大幅提升，AI醒了？

通义实验室最新成果WebDancer：开启自主智能Deep Research的新时代

一个超强的推理增强大模型,开源了,本地部署

刘笑江的专栏

腾讯云开发者社区头条

ArrayZoneYour的专栏

WeTest质量开放平台团队的专栏

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

多智能体协作不再"翻车"！新型安全强化学习算法

合成数据>人工数据，绝对性能暴涨超10个点！仅需任务定义，高效微调大模型