强化学习系列

从部署到实践，即刻拥有你的专属龙虾助手

OpenClaw开发者专区🦞🦞🦞

自行/邀约他人一键搬运博客，享价值百万资源包

腾讯云自媒体同步曝光计划

往期视频·干货材料·成员作品 最新动态

腾讯技术创作特训营知识专栏

新邀入驻腾讯云开发者社区，福利多多！

在之前的强化学习系列中我们介绍了强化学习的基础知识，也在系列十和系列十一中介绍了强化学习RL在LLM中的应用。

强化学习系列（十二）--GRPO，DAPO，DUPO，GSPO

文章从环境搭建、代码实现到数据展示与分析，完整实现了一个微博热搜爬取项目。项目不仅可以作为学习爬虫的入门案例，还可扩展为更复杂的热点分析系统。

强化学习系列（十一）--探索蒙特卡洛树搜索（MCTS）及其在大语言模型中的应用

推荐文章：《Linux本地部署开源项目OpenHands基于AI的软件开发代理平台及公网访问》

强化学习系列（十）--基于大语言模型的RLHF

推荐文章：《使用Python实现深度学习模型：智能食品配送优化》，作者：【Echo_Wish】。

AI helps AI -- 强化学习从入门到入门

好久没有更新强化学习这个系列了，今天继续更新下强化学习系列的A3C技术，后面会结合当前最火大模型强化学习训练持续更新此系列。

强化学习系列（九）--A3C

回顾上文中的DDPG，DDPG是源于DQN，它使用神经网络替换maxQ(s',a')的功能来解决连续空间问题。也就是说DDPG的Actor网络输出的是一个动作，他的目标是输出一个动作，这个动作输入到Critic后，能过获得最大的Q值。和DQN一样，更新的时候如果更新目标在不断变化会使学习过程困难，所以需要固定目标网络，求target的网络更新后再赋值参数，所以需要四个网络。

强化学习系列（八）--PPO

DDPG（deep deterministic policy gradient），深度确定性策略梯度算法。

强化学习系列（七）--DDPG

在上文中我们介绍了Acort-Critic的一种实现方式，本文主要介绍AC网络的一些优化算法。

强化学习系列（六）--Actor-Critic实例二

在基于价值算法中，是根据值函数对策略进行改进，对比基于策略的方法，他的决策更为肯定就是选择价值最高的；而基于策略方法，是直接对策略进行迭代让累计回报最大。

强化学习系列（五）--Actor-Critic实例

上文我们介绍了使用简单的Random Guessing Algorithm & Hill Climbing 算法来解决CartPole问题，主要在决策动作这个步骤进行了修改，但是上文介绍的方法都是随机改变权重，针对简单问题参数量比较少的问题可能会得到比较好的效果，但是如果问题复杂，需要参数量多的话，这种方法就不太理想。本文主要介绍基于PolicyGradient方案如何解决CartPole问题。

强化学习系列（四）-PolicyGradient实例

上文我们已经理解强化学习的基础概念以及其目标是找到一个策略       最大化未来累计奖励。同时介绍了几种常用的寻找最优策略的方法。在强化学习中还会将这些方法分类为model-based和model-free，value-based和policy-based，其中value-base的学习方法又分为off-policy和on-policy。本文主要介绍这些方法的区别和概念。

强化学习系列（二）--算法概念

最近了解了强化学习方面的知识，准备进行下整理和总结。本文先介绍强化学习中一些基础概念。

强化学习系列（一）--基础概念

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

EdgeOne AI 安全实战专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

腾讯云开发者社区推出了强化学习系列专栏，为你提供了强化学习系列的相关文章，致力于帮助开发者快速成长与发展。

强化学习系列

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐