首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

Google Earth Engine——USGS GAP CONUS 2011GAP/LANDFIRE国家陆地生态系统数据代表了美国本土、阿拉斯加、夏威夷和波多黎各的详细植被和土地覆盖分类。

The GAP/LANDFIRE National Terrestrial Ecosystems data represents a detailed vegetation and land cover classification for the Conterminous U.S., Alaska, Hawaii, and Puerto Rico.GAP/LF 2011 Ecosystems for the Conterminous U.S. is an update of the National Gap Analysis Program Land Cover Data - Version 2.2. Alaska ecosystems have been updated by LANDFIRE to 2012 conditions (LANDFIRE 2012). Hawaii and Puerto Rico data represent the 2001 time-frame (Gon et al. 2006, Gould et al. 2008). The classification scheme used for the Alaska and the lower 48 states is based on NatureServe’s Ecological System Classification (Comer et al. 2003), while Puerto Rico and Hawaii’s map legend are based on island specific classification systems (Gon et al. 2006, Gould et al. 2008).

01

强化学习读书笔记(3)| 有限马尔科夫决策过程(Finite Markov Decision Processes)

本章我们介绍有限马尔科夫决策过程(Finite MDPs),这个问题和赌博机一样涉及到评估的反馈,但这里还多了一个方面——在不同的情况做出不同的选择。MDPs是经典的序列判定决策模型,也就是说,不是做出一个选择就会马上获得reward。这与赌博机不同,赌博机只要摇一次臂即可立刻获得reward,而MDPs就像下象棋,只有结束了对局才会获得reward,但下象棋从开始到结束涉及到很多个行动,也就是要做出很多次选择才最终到对局结束。因此说MDPs的奖励是延迟的,同时MDPs还有一个即时的权值用来帮助当前决策。在赌博机情景中,我们对每一个行为a做出评估值q(a),而在MDPs情境中,我们则需要对行为a和状态s做出评估q(s,a),也可以估计每个给定最佳动作选择的状态的v(s)值。

01

马尔可夫(Markov)相关

马尔可夫(Markov)相关概念包括马尔可夫过程(Markov Process),马尔可夫奖赏过程(Markov Reward Process),马尔可夫决策过程(Markov Decision Process)等。我们说他们都是具有马尔可夫性质(Markov Property)的,然后MRP就是再加上奖赏过程,MDP就是再加上决策过程。那么什么是马尔可夫性质呢?我们上边也提到过,用一句话来说就是“The future is independent of the past given the present” 即 “在现在情况已知的情况下,过去与将来是独立的”再通俗一点就是我们可以认为现在的这个状态已经包含了预测未来所有的有用的信息,一旦现在状态信息我们已获取,那么之前的那些信息我们都可以抛弃不用了。MDP描述了RL的Environment,并且这里的环境是完全可见的。而且几乎所有的RL问题都可以转为成为MDP,其中的部分可观测环境问题也可以转化为MDP

00
领券