强化学习是一门多学科交叉的技术
RL | traditional control |
---|---|
agent | controller |
env | plant + enviroment |
reward | feedback(error signals) |
value | optimize function |
强化学习不同于 监督、非监督学习(与静态数据交互),与环境产生交互,产生最优结果的动作序列。
RL组成要素Agent、Env
组成要素:Policy、Value function、Model其中至少一个
个体观测=个体状态=环境状态 标准的**MDP **
环境不完全可观测
在强化学习里,我们经常需要先解决关于预测(prediction)的问题,而后在此基础上解决关于控制(Control)的问题。
试错的学习,个体需要从其与环境的交互中发现并执行一个好的策略,同时又不至于在试错的过程中丢失太多的奖励。探索和利用是个体进行决策时需要平衡的两个方面