强化学习来自于心理学里的行为主义理论,是在环境给予的奖励或惩罚信号的反馈下,逐步形成能获得最大利益的行为策略。与监督学习相比,强化学习不需要事先准备样本集,而是通过不断尝试,发现不同动作产生的反馈,来指导策略的学习。与无监督学习相比,强化学习不只是探索事物的特征,而是通过与环境交互建立输入与输出之间的映射关系,得到最优策略。
强化学习的特点:
强化学习的基本概念
不可避免的要与环境进行交互,必须了解环境将如何响应所采取的操作,这是一种多次试验的试错学习方法。
在强化学习的概念中,状态表示智能体的当前状态。智能体执行动作以探索环境。
定义了智能体在给定状态下的行为准则。
策略函数(可以是连续的也可以是离散的)是从智能体的状态到其在该状态下要采取的行为映射。通常表示为\(π(a_t|s_t)\),表示在给定状态\(s_t\)中采取动作\(a_t\)的条件概率分布。
比如在上图中,马里奥的任务为拿到更多的金币,并且躲避障碍。策略函数π:(s,t)的结果是一个概率,处于[0,1]之间。
\(π(a|s)=p(A=a|S=s)\)
马里奥有三个方向可以行动,那么为了达到更好效果,他向三个方向行动的概率为