前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >强化学习 9: 当 Action 的空间连续时

强化学习 9: 当 Action 的空间连续时

作者头像
杨熹
发布2018-12-17 16:14:47
1.2K0
发布2018-12-17 16:14:47
举报
文章被收录于专栏:杨熹的专栏杨熹的专栏

如果 Action 的空间不是离散的而是连续的时候要怎么做呢?

之前骑自行车的例子中,action 可以是向左或者向右,现在的话可能是一个实数值的区间。

例如在机器人控制中就经常是这样的情况,我们通过电机控制着 agent 的所有关节还有四肢,而电机又由电压控制,电压就可以选择一定范围的值。

这个时候就不能再用一个神经元代表1个action,再用 softmax 进行分类了。

那么如何用神经网络来处理这种连续空间的问题呢?一种方案是直接做回归,也是最明显的一种方式,即可以用 scikit learn 里面的回归模型,目标是最小化损失函数 MSE。

或者可以预测 action 空间的正态分布。即我们要预测采取某个 action 的概率,这个概率是服从一个正态分布的,方差为 1。 这时可以用回归模型或者神经网络训练。

后面文章中会通过代码来具体看如何做。

Practical Reinforcement Learning

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2018.11.25 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档