版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/Solo95/article/details/100151945
Exploration and Exploitation(探索和利用)是强化学习需要去平衡的一个点,即我应该去探索新的选项还是充分利用我已经有的选项以取得最大收益(博主注),它是强化学习一个非常重要的点,而且是非常依赖领域的,比如针对顾客、学生、患者等,不同的领域探索和利用的侧重会有所不同。
Agent只能体会到它尝试的那些动作,这明显会产生一个进退两难的窘境。
因为Agent必须在基于先前经验看起来是好的事情(Exploitation)和未来可能会是好的事情之间做权衡(Exploration)。
强化学习Agent应该如何平衡它的动作?
通常会有一个exploration-exploitation的权衡: 可能不得不牺牲奖励以以便去探索和学习潜在的更好的策略。