开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

社区首页 >专栏 >【五】强化学习之Sarsa、Qlearing详细讲解----PaddlePaddlle【PARL】框架｛飞桨｝

【五】强化学习之Sarsa、Qlearing详细讲解----PaddlePaddlle【PARL】框架｛飞桨｝

作者头像

汀丶人工智能

发布于 2022-12-01 15:57:33

2890

发布于 2022-12-01 15:57:33

举报

文章被收录于专栏：NLP/KG

相关文章：

【一】飞桨paddle【GPU、CPU】安装以及环境配置+python入门教学

【二】-Parl基础命令

【三】-Notebook、&pdb、ipdb 调试

【四】-强化学习入门简介

【五】-Sarsa&Qlearing详细讲解

【七】-Policy Gradient

【九】-四轴飞行器仿真

代码链接：码云：https://gitee.com/dingding962285595/parl_work ；github：https://github.com/PaddlePaddle/PARL

一、AI Studio 项目详解【VisualDL工具】

二、AI Studio 项目详解【环境使用说明、脚本任务】

三、AI Studio 项目详解【分布式训练-单机多机】

四、AI Studio 项目详解【图形化任务】

五、AI Studio 项目详解【在线部署及预测】

1.TD更新：

会找到能获取reward最大的路径。

对应数学公式：

对应流程：

下一步Q值更新当前Q值。

软更新方式，设置权重a每次更新一点点，类似学习率。这样最后Q值都会逼近目标值。

2.Sarsa

部分代码：

建立的Q表格

初始化Q表格：四列n行

Agent是和环境environment交互的主体。
predict()方法：输入观察值observation（或者说状态state），输出动作值
sample()方法：再predict()方法基础上使用ε-greedy增加探索
learn()方法：输入训练数据，完成一轮Q表格的更新

提取出状态s的这一行，然后得到最大Q值的下标。

当对应Q值存在多个动作时，避免每次都获取第一个动作，np.where从最大q值里随机挑选一个动作。

对应代码最后两行

如果 done 为true 则为episode最后一个状态，下一个时刻就没有状态了；

run_episode()：agent在一个episode中训练的过程，使用agent.sample()与环境交互，使用agent.learn()训练Q表格。
test_episode()：agent在一个episode中测试效果，评估目前的agent能在一个episode中拿到多少总reward。

测试一下算法效果

跑一个episode 只取动作最优的，每个step都延迟了0.5s，动态图显示会稍微慢点的。

得到的结果发现在到达终点过程中距离悬崖远远的，因为程序中有个探索的过程，如果离得太近，下一步会掉下悬崖，重新开始拿到reward-100

reward计算

3.Qlearning

Q-learning也是采用Q表格的方式存储Q值（状态动作价值），决策部分与Sarsa是一样的，采用ε-greedy方式增加探索。
Q-learning跟Sarsa不一样的地方是更新Q表格的方式。
- Sarsa是on-policy的更新方式，先做出动作再更新。
- Q-learning是off-policy的更新方式，更新learn()时无需获取下一步实际做出的动作next_action，并假设下一步动作是取最大Q值的动作。
Q-learning的更新公式为：

两者区别在于target不同，Qlearing默认下下一个动作为最优的策略，不受探索的影响。

除了learn其余代码都一样

效果比sarsa好

4.策略结果比较：

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2021-03-18，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

评论

登录后参与评论

0 条评论

热度

最新

LV.

目录

1.TD更新：
2.Sarsa
3.Qlearning
4.策略结果比较：

相关产品与服务

迁移服务平台

迁移服务平台（Migration Service Platform，MSP）是帮助客户将系统从源平台迁移到腾讯云的工具。为迁移上云项目提供源端资源调研、上云规划、目标资源创建、批量迁移实施等能力，帮助降低客户迁移上云的复杂度，提升迁移效率。迁移服务平台 MSP 不收取任何额外费用，您只需为购买的资源及 DTS 数据迁移工具付费。

产品介绍产品文档