强化学习第5课:什么是马尔科夫决策过程

在强化学习中,有一个非常常见的决策过程叫马尔克夫决策过程。

它和我们前面讲的决策过程是有一样的结构,只不过它会有更多限制。这里同样也有 agent 和环境,只不过还就多了一个状态,用 s 来表示。状态 state 是 agent 可以在环境中所观察到的东西, 然后 agent 可以选择一个行为,并从环境中获得反馈。

所有的行为用 a 表示,所有的状态用 s 表示。r 代表 agent 可以获得的奖励,它的值越大,我们就越应该加强这个行为。

这个决策过程之所以叫马尔可夫决策过程是因为需要有一个马尔科夫假设

意思是在这个环境里,没有其他因素来影响它的状态。也就意味着,当我们想要预测下一个状态的概率,或者想要预测 agent 能获得的奖励时,只需要知道环境的当前状态和行为

听起来可能觉得有点不现实,因为这意味着,如果我们想要给用户展示一个横幅广告,需要的就是一个状态,这个状态要包含用户的所有信息,可是我们肯定无法知道用户的大脑的状态的。

所以这只是一个数学模型,我们需要把问题做简化,模型并不需要精准。在这个决策过程中只需要假装周围的其他任何事情都是噪音。

和通常一样,我们想要优化的是 reward。区别在于这一次环境可以在每个时间点给 agent 即时的奖励。

例如,我们想训练机器人向前走。可以在一个完整的过程后给他一个奖励。例如在它摔倒时只是衡量一下走了有多长多远,这个值就作为奖励。另一种是可以在任何时候都给 agent 一个小小的反馈。

那么这时我们想要优化的不仅仅是单个的奖励,而是想要优化奖励的总和。

这同样适用于棋牌游戏。例如在象棋中,我们可以尝试优化即时的奖励,但这可能会导致我们很快就失败,因为通常即时奖励高的那一步棋并不是最好的那一步,事实上它总是最坏的那一步。

---

学习资料:

Practical Reinforcement Learning

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

刚刚,吴恩达讲了干货满满的一节全新AI课,全程手写板书

夏乙 编译整理 量子位 出品 | 公众号 QbitAI ? 给吴恩达三块白板和一支马克笔,听他讲一节精彩的课。 刚刚,在O’reilly举办的AI Confer...

3587
来自专栏木东居士的专栏

你了解你的数据吗(开篇):总览

2584
来自专栏量子位

AI有了更强的想象力!DeepMind又立功了 | 附两篇新论文

陈桦 编译自 DeepMind Blog 量子位 报道 | 公众号 QbitAI ? 人类,可以在行动之前预想到后果,这是我们认知能力中一种强大的工具。 举例来...

3166
来自专栏杨熹的专栏

开启聊天机器人模式

聊天机器人系统框架图 今天看到了一篇关于聊天机器人的一个不错的资源汇总: https://www.52ml.net/20510.html 进去看看先大概了解了...

42811
来自专栏新智元

【DARPA加入争霸赛】用量子计算解决机器学习问题,发布四大挑战!

【新智元导读】DARPA无人车挑战赛催生了一系列无人驾驶人才和公司,如今,DARPA又发布了量子计算挑战赛,给出四大命题,号召研究人员用量子计算解决机器学习问题...

674
来自专栏大数据文摘

机器学习不是万能的!谷歌工程师:激发人的想象力才能创造惊艳的用户体验

1793
来自专栏专知

教你构建机器学习项目:吴恩达新书《Machine Learning Yearning》

【导读】本文主要介绍吴恩达最近正在编写的新书《Machine Learning Yearning》,旨在教你如何构建机器学习项目,它与吴恩达之前机器学习课程有所...

4029
来自专栏机器人网

解读主流的人工智能芯片有什么不同?

 在全球规模最大的2018北美消费电子产品展上,参展的科技企业超过4000家,包括高通、英伟达、英特尔、LG、IBM、百度在内的业界科技巨头纷纷发布了各自最新的...

3789
来自专栏喔家ArchiSelf

老码农眼中的简明AI

就像每个人眼中都有一个自己的哈姆雷特一样,每一个看AI 都是不一样的。作为一个老程序员,也只是一个工作时间长一些的程序员而已,本没有什么资格定义AI,但是面对这...

643
来自专栏腾讯云技术沙龙

谭安林:大数据在教育行业的研究与应用

今天我分享的是在腾讯云在大数据对用户行为预测这个项目中,有关教育行业的一些实践,希望可以给大家带来一些帮助。这一年我们所做的是用户行为预测解决方案,针对教育行业...

5137

扫码关注云+社区

领取腾讯云代金券