转载请注明出处:小锋学长生活大爆炸[xfxuezhagn.cn] 如果本文帮助到了你,欢迎[点赞、收藏、关注]哦~
目录
类型 | 代表算法 | 核心思想 | 特点 | 适用场景 |
---|---|---|---|---|
值函数方法(Value-based) | DQN, Double DQN, Dueling DQN | 学习状态-动作值函数 Q(s,a),从而导出策略 | 易于实现,样本效率高,但对离散动作空间更友好 | 游戏(如 Atari)、简单控制任务 |
策略梯度方法(Policy Gradient) | REINFORCE, A2C, A3C | 直接优化策略 π(a, s),使回报最大 | 策略稳定、可学习随机策略,容易陷入局部最优 | 可用于连续动作,收敛稳定,但方差大 |
Actor-Critic 方法 | A2C, A3C, PPO, DDPG, TD3, SAC | 同时学习策略(Actor)和价值函数(Critic) | 结合值函数和策略梯度的优势 | 高维动作空间,样本效率好 |
模型基方法(Model-based) | Dyna-Q, MuZero, Dreamer | 构建环境的模型以模拟未来 | 需要较高建模精度,样本效率高 | 数据昂贵环境,如机器人、现实交互 |
离线强化学习(Offline RL) | CQL, BCQ, IQL | 在已有数据上训练而不与环境交互 | 安全性高、适合真实系统 | 医疗推荐系统、自动驾驶 |
方法 | 是否值函数 | 是否策略函数 | 是否使用模型 | 支持连续动作 | 样本效率 | 收敛稳定性 | 优缺点 |
---|---|---|---|---|---|---|---|
DQN | ✅ | ❌ | ❌ | ❌ | 中等 | 中等 | 简单有效,适合离散动作,但不适合连续动作 |
Double DQN | ✅ | ❌ | ❌ | ❌ | 中等 | 高 | 减少过估计偏差,提升稳定性 |
Dueling DQN | ✅ | ❌ | ❌ | ❌ | 中等 | 高 | 引入优势函数,提高估值质量 |
A2C/A3C | ✅ | ✅ | ❌ | ✅ | 高 | 中等 | 异步训练,提升效率,适用于连续控制 |
PPO | ✅ | ✅ | ❌ | ✅ | 高 | 高 | 稳定性好,调参相对容易,工业级常用 |
DDPG | ✅ | ✅ | ❌ | ✅ | 高 | 较差 | 适合连续动作,但易陷入局部最优 |
TD3 | ✅ | ✅ | ❌ | ✅ | 高 | 高 | 改进DDPG,降低Q值过估计,提升性能 |
SAC | ✅ | ✅ | ❌ | ✅ | 高 | 高 | 加入熵奖励,探索性强,效果好 |
MuZero | ✅ | ✅ | ✅ | ✅ | 高 | 高 | 不用知道环境规则,性能优异,但计算量大 |
Dreamer | ✅ | ✅ | ✅ | ✅ | 非常高 | 中等 | 构建潜在空间模型,适合视觉输入任务 |
CQL / IQL | ✅ | ✅ | ❌ | ✅ | 高 | 中等 | 适用于无法交互的离线场景,安全性强 |
一般建议:
探索 vs. 利用(Exploration vs. Exploitation)策略差异
如果你在环境中探索成本高,选择 SAC、Dreamer、MuZero 可能更有优势。
稳定性 vs. 收敛速度的权衡
样本效率的意义
可扩展性和并行训练
技术 | 用途 | 常用算法 |
---|---|---|
目标网络(Target Network) | 稳定训练 | DQN, DDPG, TD3 |
经验回放(Replay Buffer) | 提高样本效率 | DQN, DDPG, TD3, SAC |
策略熵正则化 | 保持策略随机性 | SAC |
剪切损失(Clipped Objective) | 避免策略剧变 | PPO |
模拟环境(Model Rollouts) | 减少真实交互 | Dreamer, MuZero |
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。