【强化学习篇】--强化学习案例详解一

一、前述

本文通过一个案例来讲解Q-Learning

二、具体

1、案例

假设我们需要走到5房间。

转变为如下图:先构造奖励,达到5,即能够走得5的action则说明奖励比较高设置成100,没有达到5说明奖励比较低,设置成0。

Q-learning实现步骤:

 2、案例详解:

第一步的Q(1,5):最开始的Q矩阵都是零矩阵,迭代完之后Q(1,5)是100

第二次迭代:依旧是随机

收敛的意思是最后Q基本不变了,然后归一化操作,所有值都除以500,然后计算百分比。

则最后的分值填充如下:

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏顶级程序员

人工智能“鉴黄师”

最近,雅虎利用分类神经网络搭建了一套可以辨别Not Suitable for Work(上班不宜,以下简称NSFW)色情图片的Caffe模型,并将源码搬上了gi...

31890
来自专栏机器学习算法与Python学习

10月机器学习开源项目Top10

过去一个月里,我们对近 250 个机器学习开源项目进行了排名,并挑选出热度前 10 的项目。这份清单的平均 github star 数量高达 1345,涵盖了包...

10730
来自专栏AI科技大本营的专栏

你应该知道的神经网络调试技巧

作者 | Russell Stewart 译者 | zhwhong(@zhwhong_shsf) 整理 | AI100(rgznai100) 以下建议主要针对...

28370
来自专栏ATYUN订阅号

【业界】自动机器学习的数据准备要素——分析行业重点

数据准备对于任何分析、商业智能或机器学习工作都是至关重要的。尽管自动机器学习提供了防止常见错误的保护措施,并且足够健壮地来处理不完美的数据,但是你仍然需要适当地...

31640
来自专栏机器之心

评测 | CNTK在Keras上表现如何?能实现比TensorFlow更好的深度学习吗?

选自MiniMaxir 作者:Max Woolf 机器之心编译 参与:Jane W、吴攀 Keras 是由 François Chollet 维护的深度学习高级...

29650
来自专栏机器之心

业界 | 现代「罗塞塔石碑」:微软提出深度学习框架的通用语言

选自arXiv 作者:Ilia Karmanov等 机器之心编译 参与:路雪、刘晓坤、白妤昕 深度学习框架就像语言一样:很多人会说英语,但每种语言都有自己的特殊...

35240
来自专栏吉浦迅科技

【在线视频】如何在GPU上进行混合精度训练

使用精度低于FP32的系统可以减少内存使用,允许部署更大的网络。数据传输需要更少的时间,而且计算性能会提高,尤其是在NVIDIA gpu上,它的Tensor C...

45210
来自专栏CreateAMind

Deep Learning Book 中文第五章-5.6 机器学习基础

学习算法:任务、性能度量、经验;容量、过拟合、欠拟合;超参数;估计、偏差、方差;最大似然估计;贝叶斯统计。

10030
来自专栏腾讯Bugly的专栏

深度学习三大框架对比

人工智能的浪潮正席卷全球,诸多词汇时刻萦绕在我们的耳边,如人工智能,机器学习,深度学习等。

1.6K110
来自专栏有趣的Python和你

sklearn调包侠之无敌小抄

21860

扫码关注云+社区

领取腾讯云代金券