首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

TensorFlow强化学习入门(0)——Q-Learning的查找表实现和神经网络实现

[我们将学习如何处理OpenAI FrozenLake问题,当然我们的问题不像图片中那样逼真] 在我这系列的强化学习教程中,我们将探索强化学习大家族中的Q-Learning算法,它和我们后面的教程(1-...查找表实现 # FrozenLake 问题的规则 SFFF (S: 起始点, 安全) FHFH (F: 冰层, 安全) FFFH (H: 空洞, 跌落危险) HFFG...(G: 目的地, 飞盘所在地) 本教程会基于OpenAI gym尝试解决上述的FrozenLake问题。...在FrozenLake问题中,有16个状态(每一个表格单元对应一个情况),4个可选行动,这产生了一个16*4的Q值表格。我们首先将表格初始化为全0,当有行动得分之后我们据此对表格进行更新。...在FrozenLake的例子中,我们使用单层网络来接受虚拟编码(One-hot encoding)后的当前状态(1x16),输出为包含4个Q值的矢量,每个Q值对应一个方向。

5.1K90

TensorFlow 强化学习:1~5

使用 OpenAI Gym 环境对智能体编程 本节考虑的环境是 FrozenLake-v0。 有关环境的实际文档可以在这个页面中找到。 此环境由代表一个湖泊的4 x 4网格组成。...因此,智能体程序的目标是学会从头到尾进行导航而不会陷入困境: import Gym env = Gym.make('FrozenLake-v0') #loads the environment FrozenLake-v0...Gridworld 环境由网格形式的状态组成,例如 OpenAI Gym 的 FrozenLake-v0 环境中的状态,我们在上一章中试图进行研究和解决。...环境 这是关于 OpenAI Gym 中名为 FrozenLake-v0 的网格世界环境,在第 2 章“使用 OpenAI Gym 训练强化学习智能体”中讨论。...最后,我们从 OpenAI Gym 获取了我们最喜欢的 gridworld 环境,即 FrozenLake-v0,并实现了一种值迭代方法,以使我们的智能体学会在该环境中导航。

51710

TensorFlow 深度学习第二版:6~10

FrozenLake 环境 智能体控制角色在4×4网格世界中的移动。网格的一些瓷砖是可行走的,而其他瓷砖则导致落入水中。另外,智能体的移动方向是不确定的,并且仅部分地取决于所选择的方向。...针对 FrozenLake 问题的 Q-Learning 在为高度结构化数据提供良好功能方面,神经网络非常强大。...为了解决 FrozenLake 问题,我们将构建一个单层网络,该网络采用1×16向量中编码的状态并学习最佳移动(动作),在向量中映射可能的动作长度为四。...num_episodes) + "%") 如果我们运行模型,我们应该得到这样的结果,可以通过调整网络参数来改进: >>>[2017-01-15 16:56:01,048] Making new env: FrozenLake-v0...按照这个想法,我们使用 TensorFlow 框架和 OpenAI Gym 工具包实现了一个 Q 学习神经网络,以赢得 FrozenLake 游戏。 在本章的最后一部分,我们介绍了深度强化学习。

1.2K20

扫码

添加站长 进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

    运营活动

    活动名称
    广告关闭
    领券