首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

强化学习读书笔记(3)| 有限马尔科夫决策过程(Finite Markov Decision Processes)

本章我们介绍有限马尔科夫决策过程(Finite MDPs),这个问题和赌博机一样涉及到评估的反馈,但这里还多了一个方面——在不同的情况做出不同的选择。MDPs是经典的序列判定决策模型,也就是说,不是做出一个选择就会马上获得reward。这与赌博机不同,赌博机只要摇一次臂即可立刻获得reward,而MDPs就像下象棋,只有结束了对局才会获得reward,但下象棋从开始到结束涉及到很多个行动,也就是要做出很多次选择才最终到对局结束。因此说MDPs的奖励是延迟的,同时MDPs还有一个即时的权值用来帮助当前决策。在赌博机情景中,我们对每一个行为a做出评估值q(a),而在MDPs情境中,我们则需要对行为a和状态s做出评估q(s,a),也可以估计每个给定最佳动作选择的状态的v(s)值。

01
领券